Player Live
AO VIVO
19 de junho de 2026
A nova estrutura de otimização de IA supera Claude Code e Codex em 2,5x no mesmo orçamento de computação

A nova estrutura de otimização de IA supera Claude Code e Codex em 2,5x no mesmo orçamento de computação

Imagine que sua equipe de engenharia acabou de implantar um agente de IA para pesquisar documentos internos da empresa e responder às perguntas dos funcionários. Funciona perfeitamente no desenvolvimento, mas na produção, consistentemente alucina ou ignora restrições importantes. Consertar isso raramente é um patch simples. Requer um processo tedioso de tentativa e erro para ajustar estratégias de chunking, métodos de recuperação e prompts do sistema simultaneamente. Como esses ajustes estão emaranhados, torna-se quase impossível atribuir qual ajuste específico realmente resolveu o problema. Para enfrentar esse desafio, pesquisadores da Universidade Renmin da China e da Microsoft Research introduziram o Arbor, uma estrutura que atualiza a pesquisa e a otimização orientadas por IA de uma sequência de suposições de tentativa e erro para um processo de aprendizagem cumulativo. A Arbor organiza hipóteses, experimentos e insights em uma árvore que ajuda o sistema a aprender com falhas anteriores para fazer melhorias verificadas e mais inteligentes ao longo do tempo. Em testes práticos, a Arbor proporcionou ganhos de desempenho mais de 2,5 vezes verificáveis ​​de agentes de codificação de IA padrão em tarefas de engenharia do mundo real, enquanto operava com o mesmo orçamento de recursos. Para a IA empresarial, esta técnica se traduz diretamente na automatização da melhoria contínua de sistemas de engenharia complexos do mundo real. Compreendendo o gargalo na otimização autônoma À medida que grandes modelos de linguagem e sistemas de IA se tornam mais capazes, espera-se que realizem operações mais complexas, como otimização autônoma (AO) de sistemas de software, como chicotes de agentes ou algoritmos de treinamento de modelos. AO captura o ciclo fundamental da pesquisa autônoma. Um agente de IA começa com um artefato mutável inicial, como uma base de código de aprendizado de máquina ou pipeline de dados, e um objetivo específico. O objetivo do agente é melhorar iterativamente esse artefato por meio de feedback experimental sem supervisão humana passo a passo. O principal desafio da AO é muitas vezes mal compreendido. Muitas equipes de engenharia descobrem que simplesmente dar mais tempo ou computação a um agente de codificação para otimizar uma base de código não leva a melhores resultados. "A automação pode manter uma IA funcionando por muito tempo – mas um loop não é o mesmo que progresso," Jiajie Jin, coautor do artigo, disse ao VentureBeat. "Se o objetivo for vago ou se a métrica for fácil de hackear, a automação de longa duração geralmente produz apenas “melhorias” mais rápidas que ninguém realmente deseja." Jin explica que tarefas complexas exigem muitas tentativas para serem acertadas, e as arquiteturas de agente padrão não possuem a estrutura de dados crítica para manter o estado. "Como você garante que o insight e a experiência de cada tentativa realmente se acumulem, em vez de se perderem em um buffer de rolagem?" ele disse. Sem esta estrutura, os agentes simplesmente repetem os mesmos erros. Os sistemas de agentes atuais podem executar experimentos por muitas horas com objetivos bem especificados: editar código, invocar ferramentas, executar testes de forma autônoma. Mas tratam cada tentativa isoladamente, ignorando os mecanismos estruturais que lhes permitiriam acumular e agir de acordo com o que aprenderam. Falta-lhes a capacidade de manter e comparar simultaneamente múltiplas direções de investigação concorrentes. Sem isso, não poderão interpretar tanto os sucessos como os fracassos para remodelar a sua exploração futura, que é o mecanismo central que torna a investigação humana cumulativa. Os agentes de codificação geral normalmente dependem de transcrições de conversas para sua memória. Como as tarefas de AO abrangem centenas de turnos e excedem facilmente os limites da janela de contexto, esses agentes lutam para preservar e reutilizar evidências factuais ao longo de longos históricos. Como resultado, perdem a estrutura abrangente do processo de investigação e são propensos a estagnar em caso de fracassos iniciais ou a perseguir oscilações ruidosas de avaliação. O sistema precisa de uma memória estruturada e durável que registre quais direções foram tentadas, quais evidências factuais foram produzidas e como cada resultado altera o espaço de hipóteses futuras. As estruturas existentes também tendem a recompensar hackers e ajustes excessivos às métricas de desenvolvimento. Isto faz com que criem a ilusão de progresso sem produzir melhorias que sejam transferidas para o desempenho no mundo real. Finalmente, os agentes de codificação de uso geral normalmente encadeiam suas chamadas de ferramenta em uma única árvore de trabalho compartilhada. Essa limitação arquitetônica os impede de testar hipóteses paralelas em ambientes isolados sem corromper a base de código principal ou ocultar qual hipótese causou um resultado específico. A estrutura da árvore A Arbor resolve os desafios da AO com uma estrutura que automatiza o ciclo de exploração, experimentação e abstração de longo horizonte que caracteriza a pesquisa humana. A Arbor separa a direção estratégica da pesquisa das tarefas de codificação básicas com dois componentes principais: O coordenador: Um agente de IA de longa vida que atua como investigador principal. Ele nunca edita diretamente a base de código de destino. Em vez disso, ele controla o estado geral da pesquisa de otimização, observa as evidências acumuladas, apresenta novas hipóteses e direções para explorar e decide o que fazer com os resultados dos experimentos. Executores: Agentes de IA altamente focados e de curta duração. Quando o coordenador quer testar uma ideia, ele aciona um executor e a coloca em um ambiente isolado, essencialmente uma nova árvore de trabalho git. Cada executor recebe uma hipótese. Ele implementa a ideia atribuída, executa avaliações, depura erros e reporta ao coordenador os resultados e os artefatos criados. Esses dois componentes colaboram por meio de um mecanismo que os pesquisadores chamam de “Refinamento da Árvore de Hipóteses” (HTR). A HTR representa todo o processo de pesquisa como uma árvore persistente e ramificada onde cada nó une quatro coisas: uma hipótese, o artefato executável, a evidência factual produzida e um insight destilado. Isto significa que o coordenador pode explorar múltiplas direções concorrentes ao mesmo tempo sem perder o seu lugar. O coordenador constrói a árvore colocando ideias amplas perto da raiz, enquanto refinamentos concretos se ramificam como folhas.

Leia Mais »