Tecnologia

Por que o aprendizado por reforço estagna sem profundidade de representação (e outras conclusões importantes do NeurIPS 2025)

Editor Handelsblatt

Todos os anos, o NeurIPS produz centenas de artigos impressionantes e alguns que redefinem sutilmente a forma como os profissionais pensam sobre escalonamento, avaliação e design de sistemas. Em 2025, os trabalhos mais importantes não foram sobre um único modelo inovador. Em vez disso, desafiaram pressupostos fundamentais em que os académicos e as empresas confiaram silenciosamente: modelos maiores significam melhor raciocínio, a RL cria novas capacidades, a atenção é “resolvida” e os modelos generativos inevitavelmente memorizam.

Os principais documentos deste ano apontam colectivamente para uma mudança mais profunda: o progresso da IA é agora menos limitado pela capacidade bruta do modelo e mais pela arquitectura, dinâmica de formação e estratégia de avaliação.

Abaixo está um mergulho técnico em cinco dos artigos mais influentes do NeurIPS 2025 – e o que eles significam para qualquer pessoa que esteja construindo sistemas de IA do mundo real.

1. Os LLMs estão convergindo – e finalmente temos uma maneira de medir isso

Papel: Mente Colmeal Artificial: A Homogeneidade Aberta dos Modelos de Linguagem

Durante anos, a avaliação do LLM concentrou-se na correção. Mas em tarefas abertas ou ambíguas, como brainstorming, ideação ou síntese criativa, muitas vezes há não há uma única resposta correta. O risco, em vez disso, é a homogeneidade: modelos que produzem as mesmas respostas “seguras” e de alta probabilidade.

Este artigo apresenta Bate-papo infinito, uma referência concebida explicitamente para medir a diversidade e o pluralismo na geração aberta. Em vez de pontuar as respostas como certas ou erradas, mede:

Colapso intramodelo: Com que frequência o mesmo modelo se repete
Homogeneidade entre modelos: Quão semelhantes são os resultados dos diferentes modelos

O resultado é desconfortável, mas importante: em todas as arquiteturas e provedores, os modelos convergem cada vez mais para resultados semelhantes — mesmo quando existem múltiplas respostas válidas.

Por que isso é importante na prática

Para as empresas, isto reformula o “alinhamento” como uma compensação. O ajuste de preferências e as restrições de segurança podem reduzir silenciosamente a diversidade, fazendo com que os assistentes se sintam muito seguros, previsíveis ou tendenciosos em relação a pontos de vista dominantes.

Remover: Se o seu produto depende de resultados criativos ou exploratórios, as métricas de diversidade precisam ser cidadãos de primeira classe.

2. A atenção não acabou – um simples portão muda tudo

Papel: Atenção restrita para modelos de linguagem grande

A atenção do transformador tem sido tratada como engenharia estabelecida. Este artigo prova que não.

Os autores introduzem uma pequena mudança arquitetônica: aplicam uma porta sigmóide dependente de consulta após a atenção do produto escalado, por cabeçalho de atenção. É isso. Sem kernels exóticos, sem sobrecarga enorme.

UMcruze dezenas de execuções de treinamento em grande escala – incluindo modelos densos e de mistura de especialistas (MoE) treinados em trilhões de tokens – esta variante fechada:

Estabilidade melhorada
Redução dos “sumidouros de atenção”
Aprimorado desempenho de contexto longo
Superou consistentemente a atenção baunilha

Por que funciona

O portão apresenta:

Não linearidade em saídas de atenção
Esparsidade implícitasuprimindo ativações patológicas

Isso desafia a suposição de que as falhas de atenção são puramente problemas de dados ou de otimização.

Remover: Alguns dos maiores problemas de confiabilidade do LLM podem ser arquitetônicos – não algorítmicos – e solucionáveis com mudanças surpreendentemente pequenas.

3. RL pode ser dimensionado – se você dimensionar em profundidade, não apenas nos dados

Papel: Redes de 1.000 camadas para aprendizagem de reforço auto-supervisionadag

A sabedoria convencional diz que a RL não cresce bem sem recompensas ou demonstrações densas. Este artigo revela que essa suposição está incompleta.

Ao dimensionar agressivamente a profundidade da rede de 2 a 5 camadas típicas para quase 1.000 camadas, os autores demonstram ganhos dramáticos em RL auto-supervisionada e condicionada por objetivos, com melhorias de desempenho variando de 2X a 50X.

A chave não é a força bruta. Combina profundidade com objetivos contrastantes, regimes de otimização estáveis e representações condicionadas por objetivos

Por que isso é importante além da robótica

Para sistemas de agentes e fluxos de trabalho autônomos, isso sugere que a profundidade da representação – e não apenas dados ou modelagem de recompensas – pode ser uma alavanca crítica para generalização e exploração.

Remover: Os limites de escala da RL podem ser arquitetônicos, e não fundamentais.

4. Por que os modelos de difusão generalizam em vez de memorizar

Papel: Por que os modelos de difusão não memorizam: o papel da regularização dinâmica implícita no treinamento

Os modelos de difusão são extremamente parametrizados, mas muitas vezes generalizam notavelmente bem. Este artigo explica o porquê.

Os autores identificam dois prazos de treinamento distintos:

Aquele onde a qualidade generativa melhora rapidamente
Outro – muito mais lento – onde surge a memorização

Crucialmente, a escala de tempo de memorização cresce linearmente com o tamanho do conjunto de dados, criando uma janela cada vez maior onde os modelos melhoram sem ajuste excessivo.

Implicações práticas

Isso reformula as estratégias de parada antecipada e escalonamento do conjunto de dados. A memorização não é inevitável – é previsível e atrasada.

Remover: Para o treinamento de difusão, o tamanho do conjunto de dados não apenas melhora a qualidade – ele atrasa ativamente o overfitting.

5. RL melhora o desempenho do raciocínio, não a capacidade de raciocínio

Papel: A aprendizagem por reforço realmente incentiva o raciocínio em LLMs?

Talvez o resultado estrategicamente mais importante do NeurIPS 2025 seja também o mais preocupante.

Este artigo testa rigorosamente se a aprendizagem por reforço com recompensas verificáveis (RLVR) realmente cria novas habilidades de raciocínio em LLMs – ou simplesmente remodela as existentes.

A conclusão deles: o RLVR melhora principalmente a eficiência da amostragem, não a capacidade de raciocínio. Em amostras grandes, o modelo base geralmente já contém as trajetórias de raciocínio corretas.

O que isso significa para pipelines de treinamento LLM

RL é melhor entendido como:

Um mecanismo de modelagem de distribuição
Não é um gerador de capacidades fundamentalmente novas

Remover: Para realmente expandir a capacidade de raciocínio, a RL provavelmente precisa ser combinada com mecanismos como a destilação do professor ou mudanças arquitetônicas – e não usados isoladamente.

Panorama geral: o progresso da IA está se tornando limitado pelos sistemas

Tomados em conjunto, esses artigos apontam para um tema comum:

O gargalo na IA moderna não é mais o tamanho bruto do modelo – é o design do sistema.

O colapso da diversidade requer novas métricas de avaliação
Falhas de atenção exigem correções arquitetônicas
A escala RL depende da profundidade e representação
A memorização depende da dinâmica do treinamento, não da contagem de parâmetros
Os ganhos de raciocínio dependem de como as distribuições são moldadas, e não apenas otimizadas

Para os construtores, a mensagem é clara: a vantagem competitiva está a passar de “quem tem o maior modelo” para “quem compreende o sistema”.

Maitreyi Chatterjee é engenheira de software.

Devansh Agarwal atualmente trabalha como engenheiro de ML na FAANG.

Fonte ==> Cyberseo