Tecnologia

A nova estrutura de otimização de IA supera Claude Code e Codex em 2,5x no mesmo orçamento de computação

Editor Handelsblatt

Imagine que sua equipe de engenharia acabou de implantar um agente de IA para pesquisar documentos internos da empresa e responder às perguntas dos funcionários. Funciona perfeitamente no desenvolvimento, mas na produção, consistentemente alucina ou ignora restrições importantes. Consertar isso raramente é um patch simples. Requer um processo tedioso de tentativa e erro para ajustar estratégias de chunking, métodos de recuperação e prompts do sistema simultaneamente. Como esses ajustes estão emaranhados, torna-se quase impossível atribuir qual ajuste específico realmente resolveu o problema.

Para enfrentar esse desafio, pesquisadores da Universidade Renmin da China e da Microsoft Research introduziram o Arbor, uma estrutura que atualiza a pesquisa e a otimização orientadas por IA de uma sequência de suposições de tentativa e erro para um processo de aprendizagem cumulativo. A Arbor organiza hipóteses, experimentos e insights em uma árvore que ajuda o sistema a aprender com falhas anteriores para fazer melhorias verificadas e mais inteligentes ao longo do tempo.

Em testes práticos, a Arbor proporcionou ganhos de desempenho mais de 2,5 vezes verificáveis de agentes de codificação de IA padrão em tarefas de engenharia do mundo real, enquanto operava com o mesmo orçamento de recursos.

Para a IA empresarial, esta técnica se traduz diretamente na automatização da melhoria contínua de sistemas de engenharia complexos do mundo real.

Compreendendo o gargalo na otimização autônoma

À medida que grandes modelos de linguagem e sistemas de IA se tornam mais capazes, espera-se que realizem operações mais complexas, como otimização autônoma (AO) de sistemas de software, como chicotes de agentes ou algoritmos de treinamento de modelos.

AO captura o ciclo fundamental da pesquisa autônoma. Um agente de IA começa com um artefato mutável inicial, como uma base de código de aprendizado de máquina ou pipeline de dados, e um objetivo específico. O objetivo do agente é melhorar iterativamente esse artefato por meio de feedback experimental sem supervisão humana passo a passo.

O principal desafio da AO é muitas vezes mal compreendido. Muitas equipes de engenharia descobrem que simplesmente dar mais tempo ou computação a um agente de codificação para otimizar uma base de código não leva a melhores resultados. "A automação pode manter uma IA funcionando por muito tempo – mas um loop não é o mesmo que progresso," Jiajie Jin, coautor do artigo, disse ao VentureBeat. "Se o objetivo for vago ou se a métrica for fácil de hackear, a automação de longa duração geralmente produz apenas “melhorias” mais rápidas que ninguém realmente deseja."

Jin explica que tarefas complexas exigem muitas tentativas para serem acertadas, e as arquiteturas de agente padrão não possuem a estrutura de dados crítica para manter o estado. "Como você garante que o insight e a experiência de cada tentativa realmente se acumulem, em vez de se perderem em um buffer de rolagem?" ele disse. Sem esta estrutura, os agentes simplesmente repetem os mesmos erros.

Os sistemas de agentes atuais podem executar experimentos por muitas horas com objetivos bem especificados: editar código, invocar ferramentas, executar testes de forma autônoma. Mas tratam cada tentativa isoladamente, ignorando os mecanismos estruturais que lhes permitiriam acumular e agir de acordo com o que aprenderam.

Falta-lhes a capacidade de manter e comparar simultaneamente múltiplas direções de investigação concorrentes. Sem isso, não poderão interpretar tanto os sucessos como os fracassos para remodelar a sua exploração futura, que é o mecanismo central que torna a investigação humana cumulativa.

Os agentes de codificação geral normalmente dependem de transcrições de conversas para sua memória. Como as tarefas de AO abrangem centenas de turnos e excedem facilmente os limites da janela de contexto, esses agentes lutam para preservar e reutilizar evidências factuais ao longo de longos históricos. Como resultado, perdem a estrutura abrangente do processo de investigação e são propensos a estagnar em caso de fracassos iniciais ou a perseguir oscilações ruidosas de avaliação. O sistema precisa de uma memória estruturada e durável que registre quais direções foram tentadas, quais evidências factuais foram produzidas e como cada resultado altera o espaço de hipóteses futuras.

As estruturas existentes também tendem a recompensar hackers e ajustes excessivos às métricas de desenvolvimento. Isto faz com que criem a ilusão de progresso sem produzir melhorias que sejam transferidas para o desempenho no mundo real.

Finalmente, os agentes de codificação de uso geral normalmente encadeiam suas chamadas de ferramenta em uma única árvore de trabalho compartilhada. Essa limitação arquitetônica os impede de testar hipóteses paralelas em ambientes isolados sem corromper a base de código principal ou ocultar qual hipótese causou um resultado específico.

A estrutura da árvore

A Arbor resolve os desafios da AO com uma estrutura que automatiza o ciclo de exploração, experimentação e abstração de longo horizonte que caracteriza a pesquisa humana. A Arbor separa a direção estratégica da pesquisa das tarefas de codificação básicas com dois componentes principais:

O coordenador: Um agente de IA de longa vida que atua como investigador principal. Ele nunca edita diretamente a base de código de destino. Em vez disso, ele controla o estado geral da pesquisa de otimização, observa as evidências acumuladas, apresenta novas hipóteses e direções para explorar e decide o que fazer com os resultados dos experimentos.

Executores: Agentes de IA altamente focados e de curta duração. Quando o coordenador quer testar uma ideia, ele aciona um executor e a coloca em um ambiente isolado, essencialmente uma nova árvore de trabalho git. Cada executor recebe uma hipótese. Ele implementa a ideia atribuída, executa avaliações, depura erros e reporta ao coordenador os resultados e os artefatos criados.

Esses dois componentes colaboram por meio de um mecanismo que os pesquisadores chamam de “Refinamento da Árvore de Hipóteses” (HTR). A HTR representa todo o processo de pesquisa como uma árvore persistente e ramificada onde cada nó une quatro coisas: uma hipótese, o artefato executável, a evidência factual produzida e um insight destilado. Isto significa que o coordenador pode explorar múltiplas direções concorrentes ao mesmo tempo sem perder o seu lugar.

O coordenador constrói a árvore colocando ideias amplas perto da raiz, enquanto refinamentos concretos se ramificam como folhas. Isso permite que a Arbor explore com segurança múltiplas hipóteses concorrentes simultaneamente. Se o experimento de um executor falhar, a árvore registrará o motivo da falha como uma restrição negativa, garantindo que o sistema não repita indefinidamente o mesmo erro.

Para entender por que o isolamento da Arbor é importante, considere um cenário empresarial comum: otimizar um pipeline de geração aumentada de recuperação (RAG) para um assistente interno de IA. "Quando você pede a um único agente como Claude Code ou Codex para ‘melhorar a precisão’, isso normalmente muda um monte de coisas de uma só vez – chunking, o prompt, o método de recuperação," Jin disse. Isto emaranha as mudanças, tornando impossível atribuir qual delas realmente ajudou. Também altera diretamente o repositório sem isolamento.

Arbor resolve isso tratando cada alavanca como uma hipótese separada. O chunking se torna um branch, a recuperação outro e o prompt outro – cada um implementado e avaliado em sua própria árvore de trabalho git isolada. "Então você obtém uma atribuição limpa: ‘a decomposição de restrições no lado da recuperação deu +X; a pesquisa ampla realmente doeu,’" Jin disse.

Quando um executor retorna um relatório, o coordenador grava a evidência na árvore e propaga o insight para cima, para os nós pais. Isto significa que uma observação local se torna uma restrição generalizada que molda a futura geração de ideias do coordenador.

Para evitar hacking de recompensas ou ajuste excessivo aos dados de desenvolvimento, o HTR impõe uma “porta de mesclagem” estrita. Mesmo que um executor relate uma pontuação de desenvolvimento fantástica, o coordenador criará uma árvore de trabalho isolada para testar o candidato em relação a um avaliador de teste retido. O artefato só é mesclado no melhor tronco atual se melhorar comprovadamente a pontuação do teste, verificando se o progresso é real.

Arbor geralmente se enquadra no conceito de "engenharia de loop," popularizado por figuras da indústria como o criador do OpenClaw, Peter Steinberger, e o líder do Claude Code, Boris Cherny. A ideia é ir além dos prompts únicos para projetar ciclos iterativos (observar, raciocinar, agir, verificar) que conduzam agentes autônomos. No entanto, como Jin aponta, "Um ciclo pode ser preenchido com tentativas confusas e indetectáveis, e você acaba sem nada para mostrar e sem nenhuma maneira de reconstruir o que mudou."

Árvore em ação

Os pesquisadores avaliaram o Arbor em um conjunto de tarefas de otimização autônoma construído a partir de configurações de pesquisa do mundo real e do benchmark de engenharia de aprendizado de máquina MLE-Bench Lite. O conjunto AO apresentava tarefas de diferentes áreas de desenvolvimento de IA, incluindo treinamento de modelos, engenharia de aproveitamento e síntese de dados.

Os pesquisadores usaram diferentes modelos de backbone para os agentes coordenadores e executores, incluindo Claude Opus 4.6, GPT-5.5 e Gemini-3-Flash. Eles testaram o Arbor contra os agentes de codificação mais fortes, Codex e Claude Code. Arbor e as linhas de base receberam os mesmos recursos. Para as tarefas do MLE-Bench Lite, o Arbor também foi comparado com sistemas de pesquisa de agentes de primeira linha, como AI-Scientist, ML-Master e AIDE.

A Arbor superou consistentemente as linhas de base. Alcançou o melhor resultado de teste resistido em todas as tarefas, atingindo mais de 2,5 vezes o ganho relativo médio do Codex e do Claude Code. Na tarefa BrowseComp, que envolve a otimização de um agente de pesquisa, a Arbor melhorou a precisão do sistema de uma linha de base de 45,33% para 67,67%. Enquanto isso, Codex e Claude Code estagnaram em 50% e 53,33%, respectivamente. No MLE-Bench Lite, quando equipado com GPT-5.5, o Arbor obteve o resultado mais forte entre todos os sistemas testados.

Arbor provou ser resiliente contra overfitting. Por exemplo, durante os experimentos de tarefas do Terminal-Bench 2.0, Claude Code alcançou uma alta pontuação de desenvolvimento de 75, mas sua pontuação caiu para 71 nos dados retidos. Arbor teve uma pontuação de desenvolvimento mais baixa de 72,22, mas alcançou a pontuação mais alta de 77,36, garantindo a transferência de seus resultados para aplicações do mundo real.

Arbor também mostrou generalização em um experimento de transferência entre tarefas. Depois que a Arbor terminou de otimizar o equipamento de pesquisa para a tarefa BrowseComp, os pesquisadores pegaram a base de código otimizada e a testaram em duas tarefas de agente de pesquisa não relacionadas, HLE e DeepSearchQA. A base de código otimizada do Arbor também melhorou significativamente o desempenho nessas tarefas invisíveis.

Implantando o Arbor: pontos ideais e custos ocultos

Para líderes de engenharia que desejam incluir o Arbor em sua pilha de tecnologia existente, a estrutura foi projetada para se basear nos fluxos de trabalho Git existentes, em vez de substituí-los. "Sua saída é uma ramificação git comum que sua revisão de código existente, CI e revisão humana podem inspecionar diretamente," Jin disse. Apenas os ganhos verificados são mesclados em um tronco por execução, deixando o repositório principal intocado até que um desenvolvedor decida manualmente promover o código.

No entanto, a implantação do Arbor traz vantagens específicas. Jin ressalta que o maior problema é o custo simbólico, já que manter um coordenador de longa duração que gerencia continuamente a árvore e despacha executores é a despesa dominante. A execução simultânea de várias árvores de trabalho isoladas também requer recursos genuínos de computação e disco para processar experimentos reais.

Então, onde está o ponto ideal de Arbor? De acordo com Jin, ele se destaca em tarefas com uma métrica clara e confiável, tolerância para um longo horizonte de tempo e um espaço de busca real com diversas direções plausíveis, como otimização de pipeline, qualidade de síntese de dados e ajuste de receita de treinamento de modelo.

Por outro lado, as equipes devem evitar explicitamente o uso do Arbor para tarefas de latência em tempo real, correções óbvias de uma linha ou quando a métrica de avaliação subjacente apresenta falhas. O limite máximo de qualidade de toda a execução é estritamente limitado pela qualidade do avaliador. "Se a métrica não for confiável, a Arbor apenas otimizará para um resultado não confiável com mais rapidez," Jin disse.

Jin vê a próxima evolução indo além das métricas escalares únicas. "Uma evolução natural é fazer com que o artefato de cada nó carregue um vetor – precisão, latência, custo – em vez de uma única pontuação," Jin disse. "Passar de um único escalar para uma busca de Pareto multiobjetivo é uma extensão muito natural da estrutura."

Fonte ==> Cyberseo