Player Live
AO VIVO
29 de abril de 2026
Como construir agentes de raciocínio personalizados com uma fração da computação

Como construir agentes de raciocínio personalizados com uma fração da computação

O treinamento de modelos de raciocínio de IA exige recursos que a maioria das equipes empresariais não possui. As equipes de engenharia muitas vezes são forçadas a escolher entre extrair conhecimento de modelos grandes e caros ou confiar em técnicas de aprendizado por reforço que fornecem feedback escasso. Pesquisadores do JD.com e de diversas instituições acadêmicas introduziram recentemente um novo paradigma de treinamento que contorna esse dilema. A técnica, chamada Aprendizado por Reforço com Recompensas Verificáveis ​​com Autodestilação (RLSD), combina o rastreamento confiável do desempenho do aprendizado por reforço com o feedback granular da autodestilação. Experimentos indicam que os modelos treinados com RLSD superam aqueles construídos em algoritmos clássicos de destilação e aprendizado por reforço. Para as equipes empresariais, essa abordagem reduz as barreiras técnicas e financeiras para a construção de modelos de raciocínio personalizados, adaptados à lógica de negócios específica. O problema com modelos de raciocínio de treinamento O método padrão para treinar modelos de raciocínio é o Aprendizado por Reforço com Recompensas Verificáveis ​​(RLVR). Neste paradigma, o modelo aprende por tentativa e erro, guiado por um resultado final do seu ambiente. Um verificador automatizado verifica se a resposta do modelo está certa ou errada, fornecendo uma recompensa binária, como 0 ou 1. O RLVR sofre de feedback esparso e uniforme. “O GRPO padrão tem um problema de densidade de sinal”, disse Chenxu Yang, coautor do artigo, ao VentureBeat. “Um rastreamento de raciocínio com vários milhares de tokens recebe uma única recompensa binária, e cada token dentro desse rastreamento recebe crédito idêntico, seja uma etapa lógica fundamental ou uma frase descartável.” Consequentemente, o modelo nunca aprende quais etapas intermediárias levaram ao seu sucesso ou fracasso. A destilação sob política (OPD) adota uma abordagem diferente. Em vez de esperar pelo resultado final, os desenvolvedores combinam um modelo de aluno menor com um modelo de professor maior e mais capaz. Para cada exemplo de treinamento, o aluno compara sua resposta com a do professor, ficha por ficha. Isso fornece ao aluno feedback granular sobre toda a cadeia de raciocínio e processo de geração de respostas. Implantar e executar um modelo massivo de professor separado junto com o aluno durante todo o processo de treinamento gera uma enorme sobrecarga computacional. “Você precisa manter um modelo de professor maior residente durante todo o treinamento, o que praticamente dobra a área ocupada pela GPU”, disse Yang. Além disso, os modelos de professor e aluno devem compartilhar exatamente a mesma estrutura de vocabulário, o que, de acordo com Yang, “exclui silenciosamente a maioria das configurações de arquitetura cruzada, modalidade cruzada ou multilíngue que as empresas realmente administram”. A promessa e o fracasso da autodestilação A autodestilação sob política (OPSD) surgiu como uma solução projetada para superar as deficiências das outras duas abordagens. No OPSD, o mesmo modelo desempenha o papel tanto do aluno quanto do professor. Durante o treinamento, o aluno recebe um aviso padrão enquanto o professor recebe informações privilegiadas, como uma chave de resposta passo a passo verificada. Essa versão do modelo do professor bem informado avalia a versão do aluno, fornecendo feedback token por token enquanto o aluno tenta resolver o problema usando apenas o prompt padrão. O OPSD parece ser o compromisso perfeito para um orçamento empresarial. Ele fornece orientação granular e passo a passo do OPD. Por eliminar a necessidade de um modelo de professor externo, opera com a alta eficiência computacional e o baixo custo do RLVR, exigindo apenas um passe extra para o professor. No entanto, os pesquisadores descobriram que o OPSD sofre de um fenômeno denominado “vazamento de informações privilegiadas”. “O objetivo é estruturalmente mal colocado”, disse Yang. “Há uma lacuna irredutível de informação mútua que o aluno nunca pode fechar… Quando a autodestilação é configurada como correspondência de distribuição, o aluno é solicitado a imitar a distribuição completa da produção do professor sob um contexto privilegiado.” Como o professor avalia o aluno com base em uma chave de resposta oculta, o objetivo do treinamento força o modelo do aluno a aprender as frases ou etapas exatas do professor, em vez da lógica de raciocínio subjacente. Como resultado, o modelo estudante começa a alucinar referências a uma solução invisível à qual não terá acesso numa implementação no mundo real. Na prática, os modelos OPSD mostram um rápido aumento no desempenho no início do treino, mas as suas capacidades de raciocínio rapidamente estagnam e degradam-se progressivamente ao longo do tempo. Desacoplando a direção da magnitude com RLSD Os pesquisadores por trás do RLSD perceberam que os sinais que governam como um modelo atualiza seus parâmetros têm requisitos fundamentalmente assimétricos. Eles identificaram que o sinal que dita a direção da atualização (ou seja, se deve reforçar ou penalizar um comportamento) pode ser esparso, mas deve ser perfeitamente confiável, porque apontar o modelo na direção errada prejudica a sua política de raciocínio. Por outro lado, o sinal que determina a magnitude da atualização (ou seja, quanto crédito relativo ou culpa merece uma etapa específica) beneficia de ser extremamente denso para permitir correções passo a passo refinadas. O RLSD baseia-se neste princípio, dissociando a direção da atualização da magnitude da atualização. A estrutura permite que o feedback ambiental verificável do sinal RLVR determine estritamente a direção do aprendizado. O modelo só recebe reforço global se a resposta final for objetivamente correta. O autodidata é despojado do poder de ditar o que o modelo deve gerar. Em vez disso, a avaliação do professor, ficha por ficha, é reaproveitada para determinar a magnitude da atualização. Simplesmente distribui o crédito ou a culpa total pelas etapas individuais do caminho de raciocínio do modelo. Isso altera a forma como o modelo aprende em comparação com o paradigma OPSD clássico. No OPSD padrão, o objetivo do treinamento atua como uma clonagem comportamental, onde o modelo é forçado a copiar diretamente as palavras e frases exatas do professor. Isso faz com que o aluno tenha alucinações e vaze referências a dados que não possui. Em vez de forçar o modelo a copiar uma solução oculta, o

Leia Mais »