Tecnologia

Como o ‘RL interno’ do Google poderia desbloquear agentes de IA de longo horizonte

Editor Handelsblatt

Pesquisadores do Google desenvolveram uma técnica que torna mais fácil para os modelos de IA aprender tarefas de raciocínio complexas que geralmente causam alucinações ou desmoronamentos nos LLMs. Em vez de treinar LLMs por meio da previsão do próximo token, sua técnica, chamada aprendizagem por reforço interno (RL interno), orienta as ativações internas do modelo para o desenvolvimento de uma solução passo a passo de alto nível para o problema de entrada.

Em última análise, isso poderia fornecer um caminho escalável para a criação de agentes autônomos que possam lidar com raciocínio complexo e robótica do mundo real sem a necessidade de orientação manual constante.

Os limites da previsão do próximo token

Aprendizagem por reforço desempenha um papel fundamental nos LLMs pós-treinamento, especialmente para tarefas de raciocínio complexas que requerem planejamento de longo horizonte. Contudo, o problema está na arquitetura desses modelos. LLMs são autoregressivos, o que significa que geram sequências, um token por vez. Quando esses modelos exploram novas estratégias durante o treinamento, eles o fazem fazendo pequenas alterações aleatórias no próximo token ou ação. Isto expõe uma limitação mais profunda: a previsão do próximo token força os modelos a procurar soluções no nível errado de abstração, tornando o raciocínio de longo horizonte ineficiente mesmo quando o modelo “sabe” o que fazer.

Essa abordagem token por token funciona bem para modelagem de linguagem básica, mas falha em tarefas de longo horizonte onde as recompensas são escassas. Se o modelo depende apenas de amostragem aleatória em nível de token, a probabilidade de encontrar a solução correta em várias etapas é infinitamente pequena, "na ordem de um em um milhão," segundo os pesquisadores.

A questão não é apenas que os modelos ficam confusos; é que eles ficam confusos no nível errado. Nos comentários fornecidos ao VentureBeat, Yanick Schimpf, coautor do artigo, observa que em uma tarefa de 20 etapas, um agente pode se perder nos mínimos detalhes de uma única etapa ou pode perder o controle do objetivo geral.

"Argumentamos que ao enfrentar um problema com alguma estrutura abstrata… (exploração orientada a objetivos) é o que você deseja," Schimpf disse. Ao resolver o problema primeiro no nível abstrato, o agente se compromete com um caminho, garantindo que ele não "se perder em uma das etapas do raciocínio" e não conseguem concluir o fluxo de trabalho mais amplo.

Para resolver isso, o campo há muito olha para a aprendizagem por reforço hierárquico. HRL tenta resolver problemas complexos decompondo-os em uma hierarquia de ações temporalmente abstratas (sub-rotinas de alto nível que representam diferentes estágios da solução) em vez de gerenciar uma tarefa como uma sequência de tokens.

No entanto, descobrir estas sub-rotinas apropriadas continua a ser um desafio de longa data. Os métodos atuais de HRL muitas vezes não conseguem descobrir políticas adequadas, muitas vezes "convergindo para opções degeneradas" que não representam comportamentos significativos. Mesmo métodos modernos sofisticados como o GRPO (um algoritmo RL popular usado para tarefas de recompensa esparsa) falham em ambientes complexos porque não conseguem preencher efetivamente a lacuna entre a execução de baixo nível e o planejamento de alto nível.

Direcionando os pensamentos internos do LLM

Para superar essas limitações, a equipe do Google propôs RL interno. Modelos autoregressivos avançados já "saber" como executar internamente tarefas complexas e de várias etapas, mesmo que não sejam explicitamente treinados para fazê-lo.

Como esses comportamentos complexos estão ocultos no fluxo residual do modelo (ou seja, os valores numéricos que transportam informações através das camadas da rede), os pesquisadores introduziram uma "controlador interno da rede neural," ou metacontrolador. Em vez de monitorar e alterar o token de saída, o metacontrolador controla o comportamento do modelo aplicando alterações nas ativações internas do modelo nas camadas intermediárias.

Esse empurrão direciona o modelo para um estado útil específico. O modelo base gera automaticamente a sequência de etapas individuais necessárias para atingir esse objetivo porque já viu esses padrões durante o pré-treinamento inicial.

O metacontrolador opera através de aprendizagem não supervisionada e não requer exemplos de treinamento rotulados por humanos. Em vez disso, os investigadores utilizam uma estrutura auto-supervisionada onde o modelo analisa uma sequência completa de comportamento e trabalha de trás para frente para inferir a intenção oculta de alto nível que melhor explica as ações.

Durante a fase RL interna, as atualizações são aplicadas ao metacontrolador, que muda o treinamento da previsão do próximo token para o aprendizado de ações de alto nível que podem levar à solução.

Para entender o valor prático disso, considere um agente corporativo encarregado da geração de código. Hoje, há uma difícil compensação: você precisa "baixa temperatura" (previsibilidade) para acertar a sintaxe, mas "alta temperatura" (criatividade) para resolver o quebra-cabeça lógico.

"A RL interna pode facilitar isso, permitindo que o modelo explore o espaço de ações abstratas, ou seja, estruturando lógica e chamadas de método, ao mesmo tempo que delega a realização dessas ações em nível de token para a distribuição robusta e de baixa temperatura do modelo base," Schimpf disse. O agente explora a solução sem quebrar a sintaxe.

Os pesquisadores investigaram dois métodos para aplicar este controlador. No primeiro, o modelo autorregressivo básico é pré-treinado em um conjunto de dados comportamentais e depois congelado, enquanto o metacontrolador é treinado para orientar o fluxo residual do modelo congelado. No segundo, o metacontrolador e o modelo base são otimizados conjuntamente, com parâmetros de ambas as redes atualizados simultaneamente.

RL interno em ação

Para avaliar a eficácia da RL interna, os pesquisadores realizaram experimentos em ambientes hierárquicos projetados para confundir os alunos tradicionais. Estes incluíram um mundo de grade discreto e uma tarefa de controle contínuo onde um quadrúpede "formiga" o robô deve coordenar os movimentos articulares. Ambos os ambientes usaram recompensas esparsas com sequências de ação muito longas.

Embora linhas de base como GRPO e CompILE não tenham conseguido aprender as tarefas em um milhão de episódios devido à dificuldade de atribuição de créditos em horizontes longos, a RL interna alcançou altas taxas de sucesso com um pequeno número de episódios de treinamento. Ao escolher objetivos de alto nível em vez de pequenos passos, o metacontrolador reduziu drasticamente o espaço de busca. Isto permitiu ao modelo identificar quais decisões de alto nível levaram ao sucesso, tornando a atribuição de crédito suficientemente eficiente para resolver o problema da escassa recompensa.

Notavelmente, os pesquisadores descobriram que o "congelado" abordagem foi superior. Quando o modelo base e o metacontrolador foram co-treinados do zero, o sistema falhou em desenvolver abstrações significativas. No entanto, aplicado a um modelo congelado, o metacontrolador descobriu com sucesso os principais pontos de verificação sem quaisquer rótulos humanos, alinhando perfeitamente seu mecanismo de comutação interno com os momentos de verdade quando um agente termina uma submeta e inicia a próxima.

Como a indústria atualmente se fixa em modelos de raciocínio que geram resultados detalhados "cadeias de pensamento" para resolver problemas, a pesquisa do Google aponta para um futuro diferente, talvez mais eficiente.

"Nosso estudo se junta a um conjunto crescente de trabalhos que sugerem que o “raciocínio interno” não é apenas viável, mas potencialmente mais eficiente do que abordagens baseadas em tokens." Vergonha disse. "Além disso, estes “pensamentos” silenciosos podem ser dissociados de modalidades de entrada específicas – uma propriedade que pode ser particularmente relevante para o futuro da IA multimodal."

Se o raciocínio interno puder ser orientado sem ser externalizado, o futuro dos agentes de IA poderá depender menos de estratégias estimulantes e mais de quão bem podemos aceder e orientar o que os modelos já representam internamente. Para as empresas que apostam em sistemas autónomos que devem planear, adaptar-se e agir ao longo de longos horizontes, essa mudança pode ser mais importante do que qualquer novo referencial de raciocínio.

Fonte ==> Cyberseo