Player Live
AO VIVO
12 de junho de 2026
O SkillOpt de código aberto da Microsoft atualiza automaticamente as habilidades do agente de IA sem alterar os pesos do modelo

O SkillOpt de código aberto da Microsoft atualiza automaticamente as habilidades do agente de IA sem alterar os pesos do modelo

As habilidades dos agentes se tornaram uma parte importante dos aplicativos de IA do mundo real, fornecendo um mecanismo – geralmente um conjunto de instruções salvas em uma pasta de arquivos markdown (.md) baseados em texto – para que os modelos se adaptem a casos de uso corporativos específicos e fluxos de trabalho complexos. No entanto, a otimização destas competências é um processo lento e falho, uma vez que não podem ser treinadas da mesma forma que os parâmetros do modelo de IA subjacente. Em vez disso, os usuários normalmente devem atualizá-los manualmente, redigitando as instruções em cada arquivo, reproduzindo um "jogo de adivinhação" sobre quais mudanças podem melhorar o desempenho da IA ​​da agência e reduzir erros. SkillOpt, uma nova estrutura de código aberto (licenciada pelo MIT) desenvolvida pela Microsoft, faz melhor: introduz um otimizador projetado para habilidades do agente, transformando o documento .md de habilidade do agente em um objeto treinável que evolui com base no feedback de desempenho. Ele usa otimização no estilo de aprendizagem profunda para permitir que a IA explore sistematicamente as modificações no documento e encontre a melhor combinação de instruções. Mais importante ainda, realiza esta adaptação processual sem fazer alterações nos pesos do modelo subjacente. Em vários benchmarks do setor, o SkillOpt supera as linhas de base existentes, aumentando significativamente a precisão de modelos como GPT-5.5 e Qwen. O resultado é um conjunto de artefatos de habilidades compactos e transferíveis que permitem que os agentes de IA se adaptem a novos domínios sem esforço. O desafio de otimizar as habilidades dos agentes As habilidades do agente agrupam o conhecimento processual em especificações de linguagem natural, incluindo heurísticas de domínio, políticas de uso de ferramentas, restrições de saída e modos de falha conhecidos. Essas habilidades fornecem uma interface externa para os agentes se adaptarem a fluxos de trabalho empresariais complexos. Na prática, as habilidades do agente são armazenadas como documentos de texto e inseridas no contexto do agente antes da execução. Um dos principais benefícios das habilidades é que elas personalizam o comportamento do modelo subjacente sem alterar seus pesos. No entanto, o próprio documento de habilidades precisa ser ajustado e otimizado para obter o melhor desempenho do agente. Embora o aprendizado profundo dependa de controles matemáticos rígidos para estabilidade, a engenharia humana geralmente depende de tentativa e erro. Ao tentar atualizar automaticamente um documento de habilidade com base no feedback, a falta de disciplina matemática torna o texto altamente volátil. Yifan Yang, SDE de Pesquisa Sênior da Microsoft Research Asia, disse à VentureBeat que o problema não é fazer mudanças, mas garantir que essas mudanças sejam matematicamente sólidas. "O ponto de ruptura não é se uma equipe pode mudar uma habilidade, é que eles não podem garantir que a mudança seja uma melhoria," Dito isto. "Três modos de falha são recorrentes: nenhum controle do tamanho do passo, então as habilidades mudam; sem validação, portanto, uma correção considerada razoável é gravada e pode regredir silenciosamente o desempenho; e sem memória negativa, então a mesma edição com falha continua voltando." Para ilustrar como o desempenho pode cair facilmente quando as edições não são validadas matematicamente, Yang observou que "uma reescrita ilimitada empurrou o GPT-5.5 no SpreadsheetBench de 41,8 para 41,1." De acordo com Yang, esses modos de falha são amplificados em fluxos de trabalho de várias etapas "porque é aí que os modelos de fronteira são mais fracos. Não no raciocínio, mas na disciplina processual: formato, autoverificação, política de ferramentas." Antes do SkillOpt, as habilidades dos agentes eram principalmente criadas à mão, geradas em uma única ação ou evoluídas por meio de pipelines de auto-revisão vagamente controlados que não podiam melhorar de forma confiável com feedback. Métodos de otimização de prompts, como TextGrad e GEPA, tratam os artefatos de linguagem como objetos otimizáveis ​​e usam feedback de trajetória para evoluir os prompts, mas se concentram em configurações de prompt único, em vez de gerar artefatos de habilidades persistentes e reutilizáveis. Enquanto isso, métodos de evolução e descoberta de habilidades, como EvoSkill e Trace2Skill, convertem experiências de execução de agentes em lições de trajetória para refinar pastas de habilidades, construir bibliotecas específicas de domínio ou realizar pesquisas evolutivas. Nenhum deles aplica controles de estilo de aprendizagem profunda, como taxas de aprendizagem, portas de validação e impulso, que são necessários para treinar continuamente um documento de habilidades único e compacto. Importando disciplina matemática para texto SkillOpt otimiza um documento de texto por meio de um loop iterativo de proposta e teste que separa o modelo que executa as tarefas do modelo que otimiza a habilidade. O processo se desenvolve em várias etapas: SkillOpt começa com um documento de habilidade inicial e um modelo de destino congelado (ou chicote), onde o modelo de destino executa um lote de tarefas para gerar trajetórias de execução que atuam como evidência para a etapa atual. Um modelo otimizador offline analisa essas trajetórias, separando os sucessos das falhas em minilotes. Observar um minilote ajuda o modelo a identificar erros processuais sistemáticos, em vez de anomalias pontuais. Com base nesses padrões, o otimizador propõe edições estruturais de adição, exclusão ou substituição no documento de habilidade. As edições propostas são revisadas para filtrar duplicatas ou contradições, e o otimizador então classifica essas edições candidatas de acordo com sua utilidade esperada. Em vez de aplicar todas as alterações propostas, o SkillOpt limita a lista a um orçamento máximo de edição para aquela etapa, gerando uma habilidade candidata. A habilidade candidata é avaliada em um conjunto de validação realizada usando o modelo de destino. Caso o candidato melhore a pontuação de validação, ela é aceita e passa a ser a nova habilidade atual. Se falhar, as edições serão rejeitadas e enviadas para um buffer de edição rejeitada, fornecendo feedback negativo para que o otimizador saiba que não deve repetir o erro. SkillOpt aborda diretamente o problema de tratar o texto como um objeto treinável, importando conceitos matemáticos de aprendizagem profunda. Os criadores observam que “a analogia do aprendizado profundo é operacional e não decorativa”, ajudando

Leia Mais »