
Bruno Spada/Câmara dos Deputados Gilson Marques é o relator da proposta A Comissão de Defesa

Mario Agra / Câmara dos Deputados Fernando Monteiro recomendou a aprovação do projeto, com mudanças

Pablo Valadares / Câmara dos Deputados Laura Carneiro: medida fecha lacunas na punição de práticas

Vinicius Loures/Câmara dos Deputados Ricardo Ayres, relator do projeto A Comissão de Viação e Transportes

Ler Resumo Introdução A proposta de redução da jornada de trabalho no Brasil divide especialistas.

Promovido pelo Sebrae-SP, evento reuniu gestores públicos de 12 municípios para debater estratégias conjuntas de

O treinamento de modelos de raciocínio de IA exige recursos que a maioria das equipes empresariais não possui. As equipes de engenharia muitas vezes são forçadas a escolher entre extrair conhecimento de modelos grandes e caros ou confiar em técnicas de aprendizado por reforço que fornecem feedback escasso. Pesquisadores do JD.com e de diversas instituições acadêmicas introduziram recentemente um novo paradigma de treinamento que contorna esse dilema. A técnica, chamada Aprendizado por Reforço com Recompensas Verificáveis com Autodestilação (RLSD), combina o rastreamento confiável do desempenho do aprendizado por reforço com o feedback granular da autodestilação. Experimentos indicam que os modelos treinados com RLSD superam aqueles construídos em algoritmos clássicos de destilação e aprendizado por reforço. Para as equipes empresariais, essa abordagem reduz as barreiras técnicas e financeiras para a construção de modelos de raciocínio personalizados, adaptados à lógica de negócios específica. O problema com modelos de raciocínio de treinamento O método padrão para treinar modelos de raciocínio é o Aprendizado por Reforço com Recompensas Verificáveis (RLVR). Neste paradigma, o modelo aprende por tentativa e erro, guiado por um resultado final do seu ambiente. Um verificador automatizado verifica se a resposta do modelo está certa ou errada, fornecendo uma recompensa binária, como 0 ou 1. O RLVR sofre de feedback esparso e uniforme. “O GRPO padrão tem um problema de densidade de sinal”, disse Chenxu Yang, coautor do artigo, ao VentureBeat. “Um rastreamento de raciocínio com vários milhares de tokens recebe uma única recompensa binária, e cada token dentro desse rastreamento recebe crédito idêntico, seja uma etapa lógica fundamental ou uma frase descartável.” Consequentemente, o modelo nunca aprende quais etapas intermediárias levaram ao seu sucesso ou fracasso. A destilação sob política (OPD) adota uma abordagem diferente. Em vez de esperar pelo resultado final, os desenvolvedores combinam um modelo de aluno menor com um modelo de professor maior e mais capaz. Para cada exemplo de treinamento, o aluno compara sua resposta com a do professor, ficha por ficha. Isso fornece ao aluno feedback granular sobre toda a cadeia de raciocínio e processo de geração de respostas. Implantar e executar um modelo massivo de professor separado junto com o aluno durante todo o processo de treinamento gera uma enorme sobrecarga computacional. “Você precisa manter um modelo de professor maior residente durante todo o treinamento, o que praticamente dobra a área ocupada pela GPU”, disse Yang. Além disso, os modelos de professor e aluno devem compartilhar exatamente a mesma estrutura de vocabulário, o que, de acordo com Yang, “exclui silenciosamente a maioria das configurações de arquitetura cruzada, modalidade cruzada ou multilíngue que as empresas realmente administram”. A promessa e o fracasso da autodestilação A autodestilação sob política (OPSD) surgiu como uma solução projetada para superar as deficiências das outras duas abordagens. No OPSD, o mesmo modelo desempenha o papel tanto do aluno quanto do professor. Durante o treinamento, o aluno recebe um aviso padrão enquanto o professor recebe informações privilegiadas, como uma chave de resposta passo a passo verificada. Essa versão do modelo do professor bem informado avalia a versão do aluno, fornecendo feedback token por token enquanto o aluno tenta resolver o problema usando apenas o prompt padrão. O OPSD parece ser o compromisso perfeito para um orçamento empresarial. Ele fornece orientação granular e passo a passo do OPD. Por eliminar a necessidade de um modelo de professor externo, opera com a alta eficiência computacional e o baixo custo do RLVR, exigindo apenas um passe extra para o professor. No entanto, os pesquisadores descobriram que o OPSD sofre de um fenômeno denominado “vazamento de informações privilegiadas”. “O objetivo é estruturalmente mal colocado”, disse Yang. “Há uma lacuna irredutível de informação mútua que o aluno nunca pode fechar… Quando a autodestilação é configurada como correspondência de distribuição, o aluno é solicitado a imitar a distribuição completa da produção do professor sob um contexto privilegiado.” Como o professor avalia o aluno com base em uma chave de resposta oculta, o objetivo do treinamento força o modelo do aluno a aprender as frases ou etapas exatas do professor, em vez da lógica de raciocínio subjacente. Como resultado, o modelo estudante começa a alucinar referências a uma solução invisível à qual não terá acesso numa implementação no mundo real. Na prática, os modelos OPSD mostram um rápido aumento no desempenho no início do treino, mas as suas capacidades de raciocínio rapidamente estagnam e degradam-se progressivamente ao longo do tempo. Desacoplando a direção da magnitude com RLSD Os pesquisadores por trás do RLSD perceberam que os sinais que governam como um modelo atualiza seus parâmetros têm requisitos fundamentalmente assimétricos. Eles identificaram que o sinal que dita a direção da atualização (ou seja, se deve reforçar ou penalizar um comportamento) pode ser esparso, mas deve ser perfeitamente confiável, porque apontar o modelo na direção errada prejudica a sua política de raciocínio. Por outro lado, o sinal que determina a magnitude da atualização (ou seja, quanto crédito relativo ou culpa merece uma etapa específica) beneficia de ser extremamente denso para permitir correções passo a passo refinadas. O RLSD baseia-se neste princípio, dissociando a direção da atualização da magnitude da atualização. A estrutura permite que o feedback ambiental verificável do sinal RLVR determine estritamente a direção do aprendizado. O modelo só recebe reforço global se a resposta final for objetivamente correta. O autodidata é despojado do poder de ditar o que o modelo deve gerar. Em vez disso, a avaliação do professor, ficha por ficha, é reaproveitada para determinar a magnitude da atualização. Simplesmente distribui o crédito ou a culpa total pelas etapas individuais do caminho de raciocínio do modelo. Isso altera a forma como o modelo aprende em comparação com o paradigma OPSD clássico. No OPSD padrão, o objetivo do treinamento atua como uma clonagem comportamental, onde o modelo é forçado a copiar diretamente as palavras e frases exatas do professor. Isso faz com que o aluno tenha alucinações e vaze referências a dados que não possui. Em vez de forçar o modelo a copiar uma solução oculta, o

Ouça o artigo 3 minutos Este áudio é gerado automaticamente. Por favor, deixe-nos saber se você tiver comentários. Resumo de mergulho: Albertsons Media

Microsoft and OpenAI on Monday announced a sweeping overhaul of the partnership that has defined the commercial AI era, dismantling key pillars of

Há uma guerra entre IA e consultoria. Semelhante à marcha lenta de um exército em direção ao castelo, uma nova tecnologia está chegando

The stochastic challenge Traditional software is predictable: Input A plus function B always equals output C. This determinism allows engineers to develop robust

Durante a Operação Lunar Peek em novembro de 2024, os invasores obtiveram acesso de administrador remoto não autenticado — e eventual root —

Ouça o artigo 4 minutos Este áudio é gerado automaticamente. Por favor, deixe-nos saber se você tiver comentários. Resumo de mergulho: A Home

Por várias semanas, um coro crescente de desenvolvedores e usuários avançados de IA alegaram que os principais modelos da Anthropic estavam perdendo sua

OpenAI introduced a new paradigm and product today that is likely to have huge implications for enterprises seeking to adopt and control fleets
O astronauta Reid Wiseman, comandante da missão Artemis II da NASA, publicou em suas redes um registro que fez de um fenômeno raro
Participação na Agrishow 2026 reúne Tadeu Lockermann com nomes estratégicos do agronegócio e da economia brasileira

Julgamento afasta imputações relacionadas ao Estado Democrático de Direito e consolida aplicação de acordo de não persecução penal. Paulo Sérgio Bugi foi investigado

Formação acadêmica, experiência pública e vivência estratégica marcam a carreira de José Sérgio do Nascimento Júnior O advogado criminalista José Sérgio do Nascimento

Escritório Campagnollo Bueno & Nascimento Advogados aposta em modelo técnico e atendimento próximo para atuar em casos complexos ligados à atividade econômica Campinas

A Sensormatic Solutions, portfólio global de soluções para o varejo da Johnson Controls (NYSE: JCI), celebra 60 anos de tecnologia e transformação inspiradas

Ler Resumo Introdução Em busca de novos títulos? O Dia do Livro inspira a Você S/A a revelar 4 best-sellers internacionais aguardando tradução

O Spark é um programa estruturado para transformar o conhecimento desenvolvido nas universidades em soluções inovadoras com potencial de mercado. A iniciativa oferece

Na linha de chegada, Sawe segurou o mais recente ‘supershoe’ do patrocinador Adidas com seu tempo escrito ao lado, reconhecendo a tecnologia que
Os celulares tornaram-se uma das plataformas de maior destaque para os jogos gratuitos — afinal, quem não tem um em mãos hoje em dia, não

Com 20% da população de BH acima dos 60 anos, a Clínica Cavalieri investe em um modelo de “hub integrado” para gerenciar a longevidade feminina

Baseado na obra de Néfi Rabelo Alcântara Pinheiro, modelo propõe influência silenciosa, foco no coletivo e impacto consistente nos resultados Em um cenário
© 2025 Todos os direitos reservados a Handelsblatt