Até agora, muitas empresas já implantaram alguma forma de RAG. A promessa é sedutora: indexe seus PDFs, conecte um LLM e democratize instantaneamente seu conhecimento corporativo.
Mas para as indústrias dependentes da engenharia pesada, a realidade tem sido desanimadora. Os engenheiros fazem perguntas específicas sobre infraestrutura e o bot tem alucinações.
A falha não está no LLM. A falha está no pré-processamento.
Os pipelines RAG padrão tratam os documentos como sequências simples de texto. Eles usam "fragmentação de tamanho fixo" (cortando um documento a cada 500 caracteres). Isto funciona para a prosa, mas destrói a lógica dos manuais técnicos. Ele corta as tabelas ao meio, separa as legendas das imagens e ignora a hierarquia visual da página.
EUmelhorar a confiabilidade do RAG não significa comprar um modelo maior; trata-se de consertar o "dados escuros" problema por meio de fragmentação semântica e textualização multimodal.
Aqui está a estrutura arquitetônica para construir um sistema RAG que possa realmente ler um manual.
A falácia do chunking de tamanho fixo
Em um tutorial padrão do Python RAG, você divide o texto por contagem de caracteres. Em um PDF empresarial, isso é desastroso.
Se uma tabela de especificação de segurança abrange 1.000 tokens e o tamanho do seu bloco é 500, você acabou de dividir o "limite de tensão" cabeçalho do "240V" valor. O banco de dados vetorial os armazena separadamente. Quando um usuário pergunta, "Qual é o limite de tensão?"o sistema de recuperação encontra o cabeçalho, mas não o valor. O LLM, forçado a responder, muitas vezes adivinha.
A solução: fragmentação semântica
O primeiro passo para corrigir o RAG de produção é abandonar a contagem arbitrária de caracteres em favor da inteligência documental.
Utilizando ferramentas de análise com reconhecimento de layout (como o Azure Document Intelligence), podemos segmentar dados com base na estrutura do documento, como capítulos, seções e parágrafos, em vez da contagem de tokens.
-
Coesão lógica: Uma seção que descreve uma peça específica da máquina é mantida como um único vetor, mesmo que varie em comprimento.
-
Preservação da mesa: O analisador identifica um limite de tabela e força toda a grade em um único bloco, preservando as relações linha-coluna que são vitais para uma recuperação precisa.
Em nossos benchmarks qualitativos internos, passar da fragmentação fixa para a semântica melhorou significativamente a precisão da recuperação de dados tabulares, interrompendo efetivamente a fragmentação das especificações técnicas.
Desbloqueando dados visuais escuros
O segundo modo de falha do RAG empresarial é a cegueira. Uma enorme quantidade de IP corporativo não existe em texto, mas em fluxogramas, esquemas e diagramas de arquitetura de sistema. Modelos de incorporação padrão (como text-embedding-3-small) não podem "ver" essas imagens. Eles são ignorados durante a indexação.
Se a sua resposta estiver em um fluxograma, seu sistema RAG dirá: "Não sei."
A solução: textualização multimodal
Para tornar os diagramas pesquisáveis, implementamos uma etapa de pré-processamento multimodal usando modelos com capacidade de visão (especificamente GPT-4o) antes que os dados cheguem ao armazenamento de vetores.
-
Extração de OCR: O reconhecimento óptico de caracteres de alta precisão extrai rótulos de texto de dentro da imagem.
-
Legendagem generativa: O modelo de visão analisa a imagem e gera uma descrição detalhada em linguagem natural ("Um fluxograma mostrando que o processo A leva ao processo B se a temperatura exceder 50 graus").
-
Incorporação híbrida: Esta descrição gerada é incorporada e armazenada como metadados vinculados à imagem original.
Agora, quando um usuário pesquisa por "fluxo de processo de temperatura," a pesquisa vetorial corresponde ao descriçãomesmo que a fonte original fosse um arquivo PNG.
A camada de confiança: UI baseada em evidências
Para adoção empresarial, a precisão é apenas metade da batalha. A outra metade é verificabilidade.
Em uma interface RAG padrão, o chatbot fornece uma resposta em texto e cita um nome de arquivo. Isso força o usuário a baixar o PDF e procurar a página para verificar a reivindicação. Para consultas de alto risco ("Este produto químico é inflamável?"), os usuários simplesmente não confiarão no bot.
O a arquitetura deve implementar citação visual. Como preservamos o link entre o bloco de texto e sua imagem pai durante a fase de pré-processamento, a IU pode exibir o gráfico ou tabela exato usado para gerar a resposta junto com a resposta de texto.
Esse "mostre seu trabalho" O mecanismo permite que os humanos verifiquem o raciocínio da IA instantaneamente, preenchendo a lacuna de confiança que mata tantos projetos internos de IA.
Preparado para o futuro: incorporações multimodais nativas
Enquanto o "textualização" (converter imagens em descrições de texto) é a solução prática para hoje, a arquitetura está evoluindo rapidamente.
Já estamos vendo o surgimento de incorporações multimodais nativas (como o Embed 4 de Cohere). Esses modelos podem mapear texto e imagens no mesmo espaço vetorial sem a etapa intermediária de legendagem. Embora atualmente utilizemos um pipeline de vários estágios para controle máximo, o futuro da infraestrutura de dados provavelmente envolverá "ponta a ponta" vetorização onde o layout de uma página é incorporado diretamente.
Além disso, como LLMs de contexto longo tornar-se rentável, a necessidade de fragmentação pode diminuir. Em breve poderemos passar manuais inteiros para a janela de contexto. No entanto, até que a latência e o custo das chamadas de milhões de tokens caiam significativamente, o pré-processamento semântico continua a ser a estratégia economicamente mais viável para sistemas em tempo real.
Conclusão
A diferença entre uma demonstração RAG e um sistema de produção é como ele lida com a realidade confusa dos dados empresariais.
Pare de tratar seus documentos como simples sequências de texto. Se você deseja que sua IA entenda seu negócio, você deve respeitar a estrutura de seus documentos. Ao implementar a fragmentação semântica e desbloquear os dados visuais em seus gráficos, você transforma seu sistema RAG de um "pesquisador de palavras-chave" em um verdadeiro "assistente de conhecimento."
Dippu Kumar Singh é arquiteto de IA e engenheiro de dados.
Fonte ==> Cyberseo