Tecnologia

O SkillOpt de código aberto da Microsoft atualiza automaticamente as habilidades do agente de IA sem alterar os pesos do modelo

Editor Handelsblatt

As habilidades dos agentes se tornaram uma parte importante dos aplicativos de IA do mundo real, fornecendo um mecanismo – geralmente um conjunto de instruções salvas em uma pasta de arquivos markdown (.md) baseados em texto – para que os modelos se adaptem a casos de uso corporativos específicos e fluxos de trabalho complexos.

No entanto, a otimização destas competências é um processo lento e falho, uma vez que não podem ser treinadas da mesma forma que os parâmetros do modelo de IA subjacente. Em vez disso, os usuários normalmente devem atualizá-los manualmente, redigitando as instruções em cada arquivo, reproduzindo um "jogo de adivinhação" sobre quais mudanças podem melhorar o desempenho da IA da agência e reduzir erros.

SkillOpt, uma nova estrutura de código aberto (licenciada pelo MIT) desenvolvida pela Microsoft, faz melhor: introduz um otimizador projetado para habilidades do agente, transformando o documento .md de habilidade do agente em um objeto treinável que evolui com base no feedback de desempenho.

Ele usa otimização no estilo de aprendizagem profunda para permitir que a IA explore sistematicamente as modificações no documento e encontre a melhor combinação de instruções. Mais importante ainda, realiza esta adaptação processual sem fazer alterações nos pesos do modelo subjacente.

Em vários benchmarks do setor, o SkillOpt supera as linhas de base existentes, aumentando significativamente a precisão de modelos como GPT-5.5 e Qwen. O resultado é um conjunto de artefatos de habilidades compactos e transferíveis que permitem que os agentes de IA se adaptem a novos domínios sem esforço.

O desafio de otimizar as habilidades dos agentes

As habilidades do agente agrupam o conhecimento processual em especificações de linguagem natural, incluindo heurísticas de domínio, políticas de uso de ferramentas, restrições de saída e modos de falha conhecidos. Essas habilidades fornecem uma interface externa para os agentes se adaptarem a fluxos de trabalho empresariais complexos. Na prática, as habilidades do agente são armazenadas como documentos de texto e inseridas no contexto do agente antes da execução.

Um dos principais benefícios das habilidades é que elas personalizam o comportamento do modelo subjacente sem alterar seus pesos. No entanto, o próprio documento de habilidades precisa ser ajustado e otimizado para obter o melhor desempenho do agente.

Embora o aprendizado profundo dependa de controles matemáticos rígidos para estabilidade, a engenharia humana geralmente depende de tentativa e erro. Ao tentar atualizar automaticamente um documento de habilidade com base no feedback, a falta de disciplina matemática torna o texto altamente volátil.

Yifan Yang, SDE de Pesquisa Sênior da Microsoft Research Asia, disse à VentureBeat que o problema não é fazer mudanças, mas garantir que essas mudanças sejam matematicamente sólidas.

"O ponto de ruptura não é se uma equipe pode mudar uma habilidade, é que eles não podem garantir que a mudança seja uma melhoria," Dito isto. "Três modos de falha são recorrentes: nenhum controle do tamanho do passo, então as habilidades mudam; sem validação, portanto, uma correção considerada razoável é gravada e pode regredir silenciosamente o desempenho; e sem memória negativa, então a mesma edição com falha continua voltando."

Para ilustrar como o desempenho pode cair facilmente quando as edições não são validadas matematicamente, Yang observou que "uma reescrita ilimitada empurrou o GPT-5.5 no SpreadsheetBench de 41,8 para 41,1."

De acordo com Yang, esses modos de falha são amplificados em fluxos de trabalho de várias etapas "porque é aí que os modelos de fronteira são mais fracos. Não no raciocínio, mas na disciplina processual: formato, autoverificação, política de ferramentas."

Antes do SkillOpt, as habilidades dos agentes eram principalmente criadas à mão, geradas em uma única ação ou evoluídas por meio de pipelines de auto-revisão vagamente controlados que não podiam melhorar de forma confiável com feedback.

Métodos de otimização de prompts, como TextGrad e GEPA, tratam os artefatos de linguagem como objetos otimizáveis e usam feedback de trajetória para evoluir os prompts, mas se concentram em configurações de prompt único, em vez de gerar artefatos de habilidades persistentes e reutilizáveis.

Enquanto isso, métodos de evolução e descoberta de habilidades, como EvoSkill e Trace2Skill, convertem experiências de execução de agentes em lições de trajetória para refinar pastas de habilidades, construir bibliotecas específicas de domínio ou realizar pesquisas evolutivas.

Nenhum deles aplica controles de estilo de aprendizagem profunda, como taxas de aprendizagem, portas de validação e impulso, que são necessários para treinar continuamente um documento de habilidades único e compacto.

Importando disciplina matemática para texto

SkillOpt otimiza um documento de texto por meio de um loop iterativo de proposta e teste que separa o modelo que executa as tarefas do modelo que otimiza a habilidade. O processo se desenvolve em várias etapas:

SkillOpt começa com um documento de habilidade inicial e um modelo de destino congelado (ou chicote), onde o modelo de destino executa um lote de tarefas para gerar trajetórias de execução que atuam como evidência para a etapa atual.
Um modelo otimizador offline analisa essas trajetórias, separando os sucessos das falhas em minilotes. Observar um minilote ajuda o modelo a identificar erros processuais sistemáticos, em vez de anomalias pontuais. Com base nesses padrões, o otimizador propõe edições estruturais de adição, exclusão ou substituição no documento de habilidade.
As edições propostas são revisadas para filtrar duplicatas ou contradições, e o otimizador então classifica essas edições candidatas de acordo com sua utilidade esperada.
Em vez de aplicar todas as alterações propostas, o SkillOpt limita a lista a um orçamento máximo de edição para aquela etapa, gerando uma habilidade candidata.
A habilidade candidata é avaliada em um conjunto de validação realizada usando o modelo de destino. Caso o candidato melhore a pontuação de validação, ela é aceita e passa a ser a nova habilidade atual. Se falhar, as edições serão rejeitadas e enviadas para um buffer de edição rejeitada, fornecendo feedback negativo para que o otimizador saiba que não deve repetir o erro.

SkillOpt aborda diretamente o problema de tratar o texto como um objeto treinável, importando conceitos matemáticos de aprendizagem profunda. Os criadores observam que “a analogia do aprendizado profundo é operacional e não decorativa”, ajudando a estrutura a evitar os problemas de instabilidade associados a outras técnicas de otimização.

O orçamento de edição atua como uma taxa de aprendizagem. Ao limitar quantas edições podem ser aplicadas de uma vez, evita-se que a versão da habilidade se afaste muito de seu estado anterior, preservando a continuidade e permitindo a aquisição de novos procedimentos.

Assim como a verificação da perda de validação no aprendizado profundo, os exemplos estritos e mantidos garantem que edições de texto que pareçam plausíveis só sejam mantidas se melhorarem matematicamente o desempenho real do agente na divisão de validação.

No final de uma época, o SkillOpt realiza uma atualização lenta comparando as tarefas das habilidades da época anterior e atual. Isso funciona como um termo de impulso, levando adiante lições procedimentais duráveis e de longo horizonte, ao mesmo tempo que as isola das edições rápidas em etapas.

SkillOpt em ação

Para avaliar a técnica na prática, os pesquisadores testaram o SkillOpt em diferentes modelos, desde modelos de fronteira em grande escala, como GPT-5.5, até modelos menores, fechados e abertos, incluindo GPT-5.4-mini e Qwen3.5-4B. Eles também implantaram as habilidades em diferentes sistemas de execução, usando chat simples, bem como sistemas de codificação complexos, como Codex CLI e Claude Code.

A avaliação abrangeu diversos benchmarks do setor, incluindo resposta a perguntas em uma única rodada, geração de código em várias rodadas envolvendo o uso de ferramentas e raciocínio multimodal de documentos. O SkillOpt foi medido em relação a várias linhas de base, desde uma configuração padrão de nenhuma habilidade até habilidades escritas por humanos e habilidades geradas por LLM de uma só vez. Ele também foi comparado com métodos avançados de otimização imediata e evolução de habilidades, especificamente Trace2Skill, TextGrad, GEPA e EvoSkill.

SkillOpt dominou em todos os aspectos, provando ser altamente eficaz em todas as 52 combinações avaliadas de modelo, benchmark e equipamento. Foi particularmente eficaz com modelos de fronteira, proporcionando uma melhoria média absoluta de +23,5 pontos em relação à linha de base de nenhuma qualificação no GPT-5.5. Além disso, o SkillOpt superou uma linha de base hipotética do oráculo que escolhe a dedo o melhor método concorrente para cada problema.

Modelos-alvo pequenos obtiveram imensos ganhos relativos, provando que um arquivo de texto compacto pode fornecer conhecimento processual que falta aos modelos pequenos em seus pesos. Por exemplo, o GPT-5.4-nano quase dobrou sua pontuação em controle de qualidade de documentos multimodais e triplicou sua pontuação em interação incorporada e tomada de decisão sequencial.

Esses benchmarks acadêmicos mapeiam pontos críticos da empresa. Os modelos zero-shot muitas vezes alucinam a formatação ou deixam de usar as ferramentas adequadamente em cenários de várias etapas. Yang explicou que os maiores saltos de desempenho ocorreram em operações que as empresas historicamente lutam para automatizar de forma confiável.

"Extração de dados de documentos… números exatos de contratos, faturas e formulários — automação de AP, reclamações, conformidade," Dito isto. "O que melhora é a confiabilidade: formatação precisa, autoverificação, resultados auditáveis. E os ganhos vêm do aprendizado do procedimento, não da memorização das respostas."

Para profissionais empresariais, o verdadeiro valor do SkillOpt reside na sua portabilidade, eficiência e compatibilidade com a infraestrutura existente. Experimentos confirmam que a estrutura é independente de chicotes. Além do chat básico, o mesmo ciclo de otimização foi integrado com sucesso em ambientes de execução apoiados por ferramentas, como Codex CLI e Claude Code, com ganhos significativos em benchmarks do setor.

Os desenvolvedores podem treinar uma habilidade usando um loop de execução e implantá-la em outro. Por exemplo, uma habilidade de planilha treinada inteiramente dentro do loop do Codex foi movida diretamente para o Claude Code e gerou um ganho de +59,7 pontos em relação à linha de base nativa do Claude Code sem quaisquer alterações adicionais.

Os artefatos SkillOpt também são transferidos de forma limpa entre escalas de modelo. Uma habilidade otimizada para GPT-5.4 foi implantada nos modelos menores GPT-5.4-mini e GPT-5.4-nano com ganhos positivos, provando que os procedimentos aprendidos codificam fluxos de trabalho reutilizáveis em vez de apenas explorar peculiaridades da arquitetura de um modelo específico.

Finalmente, a estrutura é altamente eficiente em relação ao uso de tokens e ao espaço da janela de contexto. Em todos os benchmarks, as habilidades finais implantadas nunca excederam 2.000 tokens, com um comprimento médio de aproximadamente 920 tokens. Isso resulta em artefatos auditáveis e altamente legíveis que um profissional humano pode revisar e gerenciar em minutos.

Estratégias de implementação e a ‘captura’ da empresa

Para os líderes tecnológicos empresariais, a adoção de uma nova estrutura requer a compreensão das despesas gerais e das limitações. Embora o artigo de pesquisa observe que os tokens de treinamento podem atingir até 210 milhões para benchmarks acadêmicos, a realidade para os casos de uso corporativo diário é muito mais leve. As altas contagens de tokens nos testes foram em grande parte devido à nova pontuação de conjuntos de testes massivos e resistentes.

"O verdadeiro trabalho inicial é o verificador e uma divisão representativa mantida. O otimizador é leve; o equipamento de avaliação é para onde vai a engenharia," Yang disse. Ele acrescentou que para o uso diário, "em estruturas comunitárias como GBrain, onde as atualizações do SkillOpt são executadas no Claude Sonnet, treinar uma habilidade para uma única tarefa custa em média apenas US$ 1–5." Esse custo de otimização é uma taxa única que é totalmente amortizada na implantação.

No entanto, o quadro requer condições específicas para funcionar eficazmente, nomeadamente algumas dezenas de exemplos representativos e um sinal de feedback pontual. As equipes devem evitar aplicar o SkillOpt a tarefas abertas ou subjetivas. "Sem um marcador automático limpo, você precisa projetar um avaliador humano ou baseado em modelo e observar sua estabilidade," Dito isto.

O SkillOpt também se integra perfeitamente às pilhas de orquestração existentes, eliminando um grande obstáculo à adoção. Por exemplo, os desenvolvedores que já utilizam compiladores pipeline podem executar ambos os sistemas harmoniosamente. "DSPy é uma camada diferente e complementar," Dito isto. "Compila pipelines LM declarativos e otimiza a estrutura do programa; SkillOpt otimiza o estado de habilidade externa que um agente congelado carrega. Você pode executá-los juntos."

Olhando para o futuro, os desenvolvedores de código aberto já estão programando o SkillOpt para executar periodicamente as trajetórias anteriores de seus agentes, criando um pequeno ecossistema de plug-ins de agente de código auto-otimizados. Este ciclo de feedback contínuo representa uma mudança significativa na forma como os sistemas de IA se adaptam.

"A versão valiosa do autoaperfeiçoamento é um agente descobrindo conhecimento de forma autônoma para melhorar seu próprio comportamento e a experiência do usuário, sob verificação e auditoria," Dito isto. "As competências são o primeiro passo mais rápido, mais barato e mais reversível, e a mesma mentalidade aponta para que os agentes eventualmente se otimizem, até aos seus próprios pesos."

Fonte ==> Cyberseo