
Bruno Spada/Câmara dos Deputados Gilson Marques é o relator da proposta A Comissão de Defesa

Mario Agra / Câmara dos Deputados Fernando Monteiro recomendou a aprovação do projeto, com mudanças

Pablo Valadares / Câmara dos Deputados Laura Carneiro: medida fecha lacunas na punição de práticas

Vinicius Loures/Câmara dos Deputados Ricardo Ayres, relator do projeto A Comissão de Viação e Transportes

Foi reinaugurada nesta quinta-feira, 30 de abril, a unidade do Sebrae Aqui no município de

Entra em vigor nesta sexta-feira (1º) o acordo comercial entre o Mercosul e a União

Um dos principais desafios da construção de agentes de IA eficazes é ensiná-los a escolher entre usar ferramentas externas ou confiar no seu conhecimento interno. Mas grandes modelos de linguagem são frequentemente treinados para invocar ferramentas cegamente, o que causa gargalos de latência, custos desnecessários de API e raciocínio degradado causado por ruído ambiental. Para superar esse desafio, os pesquisadores do Alibaba introduziram o Hierarchical Decoupled Policy Optimization (HDPO), uma estrutura de aprendizagem por reforço que treina agentes para equilibrar a eficiência de execução e a precisão das tarefas. Metis, um modelo multimodal que eles treinaram usando esta estrutura, reduz invocações redundantes de ferramentas de 98% para apenas 2%, ao mesmo tempo que estabelece uma nova precisão de raciocínio de última geração nos principais benchmarks do setor. Esta estrutura ajuda a criar agentes de IA que não são acionados e sabem quando se abster de usar ferramentas, permitindo o desenvolvimento de sistemas de agentes responsivos e econômicos. O déficit metacognitivo Os atuais modelos de agente enfrentam o que os pesquisadores chamam de “profundo déficit metacognitivo”. Os modelos têm dificuldade em decidir quando usar seu conhecimento paramétrico interno e quando consultar um utilitário externo. Como resultado, eles invocam cegamente ferramentas e APIs, como pesquisa na web ou execução de código, mesmo quando o prompt do usuário já contém todas as informações necessárias para resolver a tarefa. Esse comportamento de chamada de ferramenta cria sérios obstáculos operacionais para aplicações do mundo real. Como os modelos são treinados para focar quase inteiramente na conclusão da tarefa, eles são indiferentes à latência. Esses agentes frequentemente atingem taxas exorbitantes de chamadas de ferramentas. Cada chamada externa desnecessária à API introduz um gargalo no processamento serial, transformando uma IA tecnicamente capaz em um sistema lento que frustra os usuários e esgota os orçamentos das ferramentas. Ao mesmo tempo, queimar recursos computacionais com o uso excessivo de ferramentas não se traduz em melhor raciocínio. Interações redundantes de ferramentas injetam ruído no contexto do modelo. Esse ruído pode distrair o modelo, inviabilizando uma cadeia de raciocínio que de outra forma seria sólida e degradando ativamente o resultado final. Para resolver os problemas de latência e custo da invocação cega de ferramentas, os métodos anteriores de aprendizagem por reforço tentaram penalizar o uso excessivo de ferramentas, combinando a precisão da tarefa e a eficiência de execução em um sinal de recompensa. No entanto, esse design emaranhado cria um dilema de otimização insolúvel. Se a penalidade de eficiência for muito agressiva, o modelo se tornará excessivamente conservador e suprimirá o uso de ferramentas essenciais, sacrificando a correção em tarefas árduas. Por outro lado, se a penalidade for leve, o sinal de otimização perde seu valor e não evita o uso excessivo da ferramenta em tarefas mais simples. Além disso, esta recompensa compartilhada cria ambiguidade semântica, onde uma trajetória imprecisa com zero chamadas de ferramentas pode render a mesma recompensa que uma trajetória precisa com uso excessivo de ferramentas. Como os sinais de treinamento para precisão e eficiência ficam emaranhados, o modelo não consegue aprender a controlar o uso de ferramentas sem degradar suas principais capacidades de raciocínio. Otimização de política hierárquica dissociada Para resolver o dilema de otimização das recompensas acopladas, os pesquisadores introduziram o HDPO. HDPO separa precisão e eficiência em dois canais de otimização independentes. O canal de precisão concentra-se em maximizar a correção das tarefas em todas as implementações do modelo. O canal de eficiência otimiza a economia de execução. O HDPO calcula os sinais de treinamento para esses dois canais de forma independente e os combina apenas no estágio final do cálculo das perdas. O sinal de eficiência está condicionado ao canal de precisão. Isso significa que uma resposta incorreta nunca é recompensada simplesmente por ser rápida ou usar menos ferramentas. Essa dissociação evita situações em que os gradientes de precisão e eficiência se anulam, fornecendo à IA sinais de aprendizagem claros para ambos os objetivos. A propriedade emergente mais poderosa deste design dissociado é que ele cria um currículo cognitivo implícito. No início do treinamento, quando o modelo ainda tem dificuldades com a tarefa, a otimização é dominada pelo objetivo de precisão, forçando o modelo a priorizar o aprendizado do raciocínio e do conhecimento corretos. À medida que as capacidades de raciocínio do modelo amadurecem e ele chega consistentemente às respostas certas, o sinal de eficiência aumenta suavemente. Esse mecanismo faz com que o modelo primeiro domine a resolução de tarefas e só então refine sua autossuficiência, evitando chamadas de API redundantes e dispendiosas. Para complementar o HDPO, os pesquisadores desenvolveram um regime rigoroso de curadoria de dados em vários estágios que aborda falhas graves encontradas em conjuntos de dados existentes aumentados por ferramentas. Seu pipeline de curadoria de dados cobre os estágios de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). Para a fase SFT, eles obtiveram dados de trajetórias multimodais aumentadas por ferramentas disponíveis publicamente e os filtraram para remover exemplos de baixa qualidade contendo falhas de execução ou inconsistências de feedback. Eles também filtraram agressivamente qualquer amostra de treinamento que o modelo básico pudesse resolver diretamente, sem ferramentas. Por fim, usando o Gemini 3.1 Pro do Google como juiz automatizado, eles filtraram o corpus SFT para manter apenas exemplos que demonstrassem o uso de ferramentas estratégicas. Para a fase RL, a curadoria se concentrou em garantir um sinal de otimização estável. Eles filtraram prompts com recursos visuais corrompidos ou ambigüidade semântica. O algoritmo HDPO depende da comparação de respostas corretas e incorretas. Se uma tarefa é trivialmente fácil, onde o modelo sempre acerta, ou proibitivamente difícil, onde o modelo sempre falha, não há variação matemática significativa com a qual aprender. A equipe manteve estritamente apenas os prompts que exibiam uma mistura não trivial de sucessos e fracassos para garantir um sinal de gradiente acionável. Agente Metis: HDPO em ação Para testar o HDPO em ação, os pesquisadores usaram a estrutura para desenvolver o Metis, um agente de raciocínio multimodal equipado com ferramentas de codificação e pesquisa. Metis é construído sobre

Amazon Web Services on Tuesday launched one of the most consequential enterprise AI plays in the company's 20-year history, simultaneously bringing OpenAI's most

A Assessment Labs, especializada na transformação de linguagem falada em dados capazes de apontar para tomadas de decisão de risco mais precisas, é

Ouça o artigo 10 minutos Este áudio é gerado automaticamente. Por favor, deixe-nos saber se você tiver comentários. “O Diabo Veste Prada” foi

O treinamento de modelos de raciocínio de IA exige recursos que a maioria das equipes empresariais não possui. As equipes de engenharia muitas

Pressão, dados e decisão: a nova realidade de empresas que ainda tentam entender o impacto da reforma tributária antes que o custo apareça no caixa

Ouça o artigo 3 minutos Este áudio é gerado automaticamente. Por favor, deixe-nos saber se você tiver comentários. Resumo de mergulho: Albertsons Media

Microsoft and OpenAI on Monday announced a sweeping overhaul of the partnership that has defined the commercial AI era, dismantling key pillars of

Há uma guerra entre IA e consultoria. Semelhante à marcha lenta de um exército em direção ao castelo, uma nova tecnologia está chegando
Contestando o laudo oficial, uma perícia particular contratada por advogados da família de PC Siqueira aponta que o youtuber teria sido morto por

Evento reúne empreendedores para expor trajetórias reais de crescimento e decisões estratégicas

A triste realidade da vida é que, enquanto não chega à nossa casa, dificilmente nos levantamos da cadeira — ou, pior, ajudamos quem

Avanço tecnológico amplia complexidade na produção e validação de evidências digitais no sistema jurídico O crescimento dos crimes informáticos tem imposto novos desafios

Com avanço acelerado, IA passa a operar no centro dos negócios e redefine como empresas vendem, atendem, tomam decisões e competem A inteligência

Em um momento em que práticas ESG deixam de ser diferencial e passam a ocupar o centro das estratégias corporativas, o Prêmio Consciência

Para muitas famílias brasileiras, os feriados prolongados são a oportunidade ideal para desacelerar e viver experiências que vão além da rotina urbana. No

A Wyndham Hotels & Resorts, maior empresa de franquias hoteleiras do mundo, com mais de 8.300 empreendimentos em 100 países, tem intensificado sua

Com avanço consistente do turismo e valorização imobiliária acima da média nacional, João Pessoa (PB) vem se consolidando como um dos mercados mais

A Páscoa é uma das datas mais afetivas do calendário — e, neste ano, o Yvá Gastronomia transforma a celebração em uma experiência

O mercado de multipropriedade e timeshare no Brasil, que já movimenta cifras bilionárias e mantém trajetória consistente de expansão nos últimos anos, entra

A Travel Next Minas 2026 anuncia a abertura, na segunda quinzena de abril, do processo de inscrições para o TRAVELLUX, área dedicada exclusivamente
© 2025 Todos os direitos reservados a Handelsblatt