Todos os anos, o NeurIPS produz centenas de artigos impressionantes e alguns que redefinem sutilmente a forma como os profissionais pensam sobre escalonamento, avaliação e design de sistemas. Em 2025, os trabalhos mais importantes não foram sobre um único modelo inovador. Em vez disso, desafiaram pressupostos fundamentais em que os académicos e as empresas confiaram silenciosamente: modelos maiores significam melhor raciocínio, a RL cria novas capacidades, a atenção é “resolvida” e os modelos generativos inevitavelmente memorizam.
Os principais documentos deste ano apontam colectivamente para uma mudança mais profunda: o progresso da IA é agora menos limitado pela capacidade bruta do modelo e mais pela arquitectura, dinâmica de formação e estratégia de avaliação.
Abaixo está um mergulho técnico em cinco dos artigos mais influentes do NeurIPS 2025 – e o que eles significam para qualquer pessoa que esteja construindo sistemas de IA do mundo real.
1. Os LLMs estão convergindo – e finalmente temos uma maneira de medir isso
Papel: Mente Colmeal Artificial: A Homogeneidade Aberta dos Modelos de Linguagem
Durante anos, a avaliação do LLM concentrou-se na correção. Mas em tarefas abertas ou ambíguas, como brainstorming, ideação ou síntese criativa, muitas vezes há não há uma única resposta correta. O risco, em vez disso, é a homogeneidade: modelos que produzem as mesmas respostas “seguras” e de alta probabilidade.
Este artigo apresenta Bate-papo infinito, uma referência concebida explicitamente para medir a diversidade e o pluralismo na geração aberta. Em vez de pontuar as respostas como certas ou erradas, mede:
-
Colapso intramodelo: Com que frequência o mesmo modelo se repete
-
Homogeneidade entre modelos: Quão semelhantes são os resultados dos diferentes modelos
O resultado é desconfortável, mas importante: em todas as arquiteturas e provedores, os modelos convergem cada vez mais para resultados semelhantes — mesmo quando existem múltiplas respostas válidas.
Por que isso é importante na prática
Para as empresas, isto reformula o “alinhamento” como uma compensação. O ajuste de preferências e as restrições de segurança podem reduzir silenciosamente a diversidade, fazendo com que os assistentes se sintam muito seguros, previsíveis ou tendenciosos em relação a pontos de vista dominantes.
Remover: Se o seu produto depende de resultados criativos ou exploratórios, as métricas de diversidade precisam ser cidadãos de primeira classe.
2. A atenção não acabou – um simples portão muda tudo
Papel: Atenção restrita para modelos de linguagem grande
A atenção do transformador tem sido tratada como engenharia estabelecida. Este artigo prova que não.
Os autores introduzem uma pequena mudança arquitetônica: aplicam uma porta sigmóide dependente de consulta após a atenção do produto escalado, por cabeçalho de atenção. É isso. Sem kernels exóticos, sem sobrecarga enorme.
UMcruze dezenas de execuções de treinamento em grande escala – incluindo modelos densos e de mistura de especialistas (MoE) treinados em trilhões de tokens – esta variante fechada:
-
Estabilidade melhorada
-
Redução dos “sumidouros de atenção”
-
Aprimorado desempenho de contexto longo
-
Superou consistentemente a atenção baunilha
Por que funciona
O portão apresenta:
-
Não linearidade em saídas de atenção
-
Esparsidade implícitasuprimindo ativações patológicas
Isso desafia a suposição de que as falhas de atenção são puramente problemas de dados ou de otimização.
Remover: Alguns dos maiores problemas de confiabilidade do LLM podem ser arquitetônicos – não algorítmicos – e solucionáveis com mudanças surpreendentemente pequenas.
3. RL pode ser dimensionado – se você dimensionar em profundidade, não apenas nos dados
Papel: Redes de 1.000 camadas para aprendizagem de reforço auto-supervisionadag
A sabedoria convencional diz que a RL não cresce bem sem recompensas ou demonstrações densas. Este artigo revela que essa suposição está incompleta.
Ao dimensionar agressivamente a profundidade da rede de 2 a 5 camadas típicas para quase 1.000 camadas, os autores demonstram ganhos dramáticos em RL auto-supervisionada e condicionada por objetivos, com melhorias de desempenho variando de 2X a 50X.
A chave não é a força bruta. Combina profundidade com objetivos contrastantes, regimes de otimização estáveis e representações condicionadas por objetivos
Por que isso é importante além da robótica
Para sistemas de agentes e fluxos de trabalho autônomos, isso sugere que a profundidade da representação – e não apenas dados ou modelagem de recompensas – pode ser uma alavanca crítica para generalização e exploração.
Remover: Os limites de escala da RL podem ser arquitetônicos, e não fundamentais.
4. Por que os modelos de difusão generalizam em vez de memorizar
Papel: Por que os modelos de difusão não memorizam: o papel da regularização dinâmica implícita no treinamento
Os modelos de difusão são extremamente parametrizados, mas muitas vezes generalizam notavelmente bem. Este artigo explica o porquê.
Os autores identificam dois prazos de treinamento distintos:
-
Aquele onde a qualidade generativa melhora rapidamente
-
Outro – muito mais lento – onde surge a memorização
Crucialmente, a escala de tempo de memorização cresce linearmente com o tamanho do conjunto de dados, criando uma janela cada vez maior onde os modelos melhoram sem ajuste excessivo.
Implicações práticas
Isso reformula as estratégias de parada antecipada e escalonamento do conjunto de dados. A memorização não é inevitável – é previsível e atrasada.
Remover: Para o treinamento de difusão, o tamanho do conjunto de dados não apenas melhora a qualidade – ele atrasa ativamente o overfitting.
5. RL melhora o desempenho do raciocínio, não a capacidade de raciocínio
Papel: A aprendizagem por reforço realmente incentiva o raciocínio em LLMs?
Talvez o resultado estrategicamente mais importante do NeurIPS 2025 seja também o mais preocupante.
Este artigo testa rigorosamente se a aprendizagem por reforço com recompensas verificáveis (RLVR) realmente cria novas habilidades de raciocínio em LLMs – ou simplesmente remodela as existentes.
A conclusão deles: o RLVR melhora principalmente a eficiência da amostragem, não a capacidade de raciocínio. Em amostras grandes, o modelo base geralmente já contém as trajetórias de raciocínio corretas.
O que isso significa para pipelines de treinamento LLM
RL é melhor entendido como:
-
Um mecanismo de modelagem de distribuição
-
Não é um gerador de capacidades fundamentalmente novas
Remover: Para realmente expandir a capacidade de raciocínio, a RL provavelmente precisa ser combinada com mecanismos como a destilação do professor ou mudanças arquitetônicas – e não usados isoladamente.
Panorama geral: o progresso da IA está se tornando limitado pelos sistemas
Tomados em conjunto, esses artigos apontam para um tema comum:
O gargalo na IA moderna não é mais o tamanho bruto do modelo – é o design do sistema.
-
O colapso da diversidade requer novas métricas de avaliação
-
Falhas de atenção exigem correções arquitetônicas
-
A escala RL depende da profundidade e representação
-
A memorização depende da dinâmica do treinamento, não da contagem de parâmetros
-
Os ganhos de raciocínio dependem de como as distribuições são moldadas, e não apenas otimizadas
Para os construtores, a mensagem é clara: a vantagem competitiva está a passar de “quem tem o maior modelo” para “quem compreende o sistema”.
Maitreyi Chatterjee é engenheira de software.
Devansh Agarwal atualmente trabalha como engenheiro de ML na FAANG.
Fonte ==> Cyberseo