Os agentes construídos com base nos modelos atuais geralmente quebram com mudanças simples — uma nova biblioteca, uma modificação no fluxo de trabalho — e exigem um engenheiro humano para corrigi-los. Esse é um dos desafios mais persistentes na implantação de IA nas empresas: criar agentes que possam se adaptar a ambientes dinâmicos sem ajuda constante. Embora os modelos atuais sejam poderosos, eles são em grande parte estáticos.
Para resolver isso, pesquisadores da Universidade da Califórnia, em Santa Bárbara, desenvolveram Agentes em evolução de grupo (GEA), uma nova estrutura que permite que grupos de agentes de IA evoluam juntos, compartilhando experiências e reutilizando suas inovações para melhorar de forma autônoma ao longo do tempo.
Em experimentos em tarefas complexas de codificação e engenharia de software, a GEA superou substancialmente as estruturas existentes de autoaperfeiçoamento. Talvez mais notavelmente para os decisores empresariais, o sistema desenvolveu agentes de forma autónoma que igualaram ou excederam o desempenho de estruturas meticulosamente concebidas por especialistas humanos.
As limitações da evolução do ‘lobo solitário’
A maioria existente sistemas de IA agentes dependem de arquiteturas fixas projetadas por engenheiros. Esses sistemas muitas vezes lutam para ir além dos limites de capacidade impostos pelos seus projetos iniciais.
Para resolver isto, os investigadores há muito procuram criar agentes autoevolutivos que possam modificar autonomamente o seu próprio código e estrutura para superar os seus limites iniciais. Esta capacidade é essencial para lidar com ambientes abertos onde o agente deve explorar continuamente novas soluções.
No entanto, as abordagens atuais da autoevolução apresentam uma grande falha estrutural. Como observam os pesquisadores em seu artigo, a maioria dos sistemas é inspirada na evolução biológica e é projetada em torno de "centrado no indivíduo" processos. Esses métodos normalmente usam uma abordagem estruturada em árvore: um único "pai" O agente é selecionado para produzir descendentes, criando ramos evolutivos distintos que permanecem estritamente isolados uns dos outros.
Esse isolamento cria um efeito de silo. Um agente em uma filial não pode acessar os dados, ferramentas ou fluxos de trabalho descobertos por um agente em uma filial paralela. Se uma linhagem específica não for selecionada para a próxima geração, qualquer descoberta valiosa feita por esse agente, como uma nova ferramenta de depuração ou um fluxo de trabalho de teste mais eficiente, desaparece junto com ela.
No artigo, os pesquisadores questionam a necessidade de aderir a essa metáfora biológica. "Os agentes de IA não são indivíduos biológicos," eles discutem. "Por que deveria a sua evolução permanecer limitada por paradigmas biológicos?"
A inteligência coletiva dos Agentes em Evolução de Grupo
A GEA muda o paradigma ao tratar um grupo de agentes, em vez de um indivíduo, como a unidade fundamental da evolução.
O processo começa selecionando um grupo de agentes pais de um arquivo existente. Para garantir uma combinação saudável de estabilidade e inovação, a GEA seleciona estes agentes com base numa pontuação combinada de desempenho (competência na resolução de tarefas) e novidade (quão distintas são as suas capacidades das outras).
Ao contrário dos sistemas tradicionais, onde um agente aprende apenas com o seu controlador direto, a GEA cria um conjunto partilhado de experiência coletiva. Esse pool contém os rastros evolutivos de todos os membros do grupo pai, incluindo modificações de código, soluções bem-sucedidas para tarefas e históricos de invocação de ferramentas. Cada agente do grupo ganha acesso a esta história coletiva, permitindo-lhes aprender com os avanços e erros dos seus pares.
Um “Módulo de Reflexão”, alimentado por um grande modelo de linguagem, analisa esta história coletiva para identificar padrões em todo o grupo. Por exemplo, se um agente descobre uma ferramenta de depuração de alto desempenho enquanto outro aperfeiçoa um fluxo de trabalho de teste, o sistema extrai ambos os insights. Com base nesta análise, o sistema gera resultados de alto nível "diretivas de evolução" que orientam a criação do grupo filho. Isto garante que a próxima geração possua os pontos fortes combinados de todos os seus pais, em vez de apenas as características de uma única linhagem.
No entanto, essa abordagem de mente coletiva funciona melhor quando o sucesso é objetivo, como em tarefas de codificação. "Para domínios menos determinísticos (por exemplo, geração criativa), os sinais de avaliação são mais fracos," Zhaotian Weng e Xin Eric Wang, coautores do artigo, disseram ao VentureBeat em comentários por escrito. "A partilha cega de resultados e experiências pode introduzir experiências de baixa qualidade que funcionam como ruído. Isto sugere a necessidade de mecanismos de filtragem de experiência mais fortes" para tarefas subjetivas.
GEA em ação
Os pesquisadores testaram o GEA em relação à atual linha de base autoevolutiva de última geração, o Máquina Darwin Gõdel (DGM), em dois critérios rigorosos. Os resultados demonstraram um enorme salto na capacidade sem aumentar o número de agentes utilizados.
Esta abordagem colaborativa também torna o sistema mais robusto contra falhas. Em seus experimentos, os pesquisadores quebraram intencionalmente os agentes, injetando bugs manualmente em suas implementações. A GEA conseguiu reparar esses bugs críticos em uma média de 1,4 iterações, enquanto a linha de base levou 5 iterações. O sistema aproveita efetivamente o "saudável" membros do grupo para diagnosticar e corrigir os comprometidos.
No SWE-bench Verified, um benchmark que consiste em problemas reais do GitHub, incluindo bugs e solicitações de recursos, a GEA alcançou uma taxa de sucesso de 71,0%, em comparação com os 56,7% da linha de base. Isto se traduz em um aumento significativo no rendimento da engenharia autônoma, o que significa que os agentes são muito mais capazes de lidar com a manutenção de software no mundo real. Da mesma forma, no Polyglot, que testa a geração de código em diversas linguagens de programação, a GEA alcançou 88,3% contra 68,3% da linha de base, indicando alta adaptabilidade a diferentes pilhas de tecnologia.
Para as equipes de P&D empresariais, a descoberta mais crítica é que a GEA permite que a IA se projete de forma tão eficaz quanto os engenheiros humanos. No banco SWE, a taxa de sucesso de 71,0% da GEA corresponde efetivamente ao desempenho de Mãos Abertasa principal estrutura de código aberto projetada por humanos. Na Polyglot, a GEA superou significativamente o Aider, um popular assistente de codificação, que alcançou 52,0%. Isto sugere que as organizações podem eventualmente reduzir a sua dependência de grandes equipas de engenheiros imediatos para ajustar as estruturas dos agentes, uma vez que os agentes podem meta-aprender estas otimizações de forma autónoma.
Essa eficiência se estende ao gerenciamento de custos. "GEA é explicitamente um sistema de dois estágios: (1) evolução do agente, depois (2) inferência/implantação," disseram os pesquisadores. "Após a evolução, você implanta um único agente evoluído… de modo que o custo de inferência empresarial permanece essencialmente inalterado em comparação com uma configuração padrão de agente único."
O sucesso da GEA decorre em grande parte da sua capacidade de consolidar melhorias. Os pesquisadores acompanharam inovações específicas inventadas pelos agentes durante o processo evolutivo. Na abordagem de linha de base, ferramentas valiosas frequentemente apareciam em ramos isolados, mas não conseguiam se propagar porque essas linhagens específicas terminavam. Na GEA, o modelo de experiência compartilhada garantiu que essas ferramentas fossem adotadas pelos agentes com melhor desempenho. O principal agente da GEA integrou características de 17 ancestrais únicos (representando 28% da população), enquanto o melhor agente de linha de base integrou características de apenas 9. Na verdade, a GEA cria um "superfuncionário" que possui as melhores práticas combinadas de todo o grupo.
"Um fluxo de trabalho de produção inspirado na GEA permitiria que os agentes tentassem primeiro algumas correções independentes quando ocorressem falhas," os pesquisadores explicaram sobre essa capacidade de autocura. "Um agente de reflexão (normalmente alimentado por um modelo de base sólida) pode então resumir os resultados… e orientar uma atualização mais abrangente do sistema."
Além disso, as melhorias descobertas pela GEA não estão vinculadas a um modelo subjacente específico. Os agentes evoluíram usando um modelo, como Claude, e mantiveram seus ganhos de desempenho mesmo quando o mecanismo subjacente foi trocado por outra família de modelos, como GPT-5.1 ou GPT-o3-mini. Essa transferibilidade oferece às empresas a flexibilidade de trocar de provedor de modelo sem perder as otimizações arquitetônicas personalizadas que seus agentes aprenderam.
Para indústrias com requisitos de conformidade rigorosos, a ideia de código automodificável pode parecer arriscada. Para resolver isso, os autores disseram: "Esperamos que as implantações empresariais incluam proteções não evolutivas, como execução em sandbox, restrições de política e camadas de verificação."
Embora os pesquisadores planejem lançar o código oficial em breve, os desenvolvedores já podem começar a implementar a arquitetura GEA conceitualmente sobre as estruturas de agentes existentes. O sistema requer três adições importantes a uma pilha de agentes padrão: um “arquivo de experiência” para armazenar traços evolutivos, um “módulo de reflexão” para analisar padrões de grupo e um “módulo de atualização” que permite ao agente modificar seu próprio código com base nesses insights.
Olhando para o futuro, o quadro poderá democratizar o desenvolvimento de agentes avançados. "Uma direção promissora são os pipelines de evolução híbrida," os pesquisadores disseram, "onde modelos menores exploram cedo para acumular diversas experiências, e modelos mais fortes posteriormente orientam a evolução usando essas experiências."
Fonte ==> Cyberseo