Tecnologia

O novo Olmo 3.1 da Ai2 estende o treinamento de aprendizagem por reforço para benchmarks de raciocínio mais fortes

Editor Handelsblatt

O Allen Institute for AI (Ai2) lançou recentemente o que chama de seu mais poderoso família de modelos ainda, Olmo 3. Mas a empresa continuou iterando os modelos, expandindo suas execuções de aprendizado por reforço (RL), para criar o Olmo 3.1.

Os novos modelos Olmo 3.1 focam na eficiência, transparência e controle para as empresas.

Ai2 atualizou duas das três versões do Olmo 2: Olmo 3.1 Think 32B, o modelo principal otimizado para pesquisa avançada, e Olmo 3.1 Instruct 32B, projetado para acompanhamento de instruções, diálogo multivoltas e uso de ferramentas.

Olmo 3 possui uma terceira versão, Olmo 3-Base para programação, compreensão e matemática. Também funciona bem para continuar o ajuste fino.

Ai2 disse que para atualizar o Olmo 3 Think 32B para o Olmo 3.1, seus pesquisadores estenderam sua melhor execução de RL com um cronograma de treinamento mais longo.

“Após o lançamento original do Olmo 3, retomamos nossa execução de treinamento RL para o Olmo 3 32B Think, treinando por mais 21 dias em 224 GPUs com épocas extras em nosso conjunto de dados Dolci-Think-RL”, disse Ai2 em um postagem no blog. “Isso rendeu o Olmo 3.1 32B Think, que traz ganhos substanciais em benchmarks de matemática, raciocínio e acompanhamento de instruções: melhorias de mais de 5 pontos no AIME, mais de 4 pontos no ZebraLogic, mais de 4 pontos no IFEval e mais de 20 pontos no IFBench, juntamente com desempenho mais forte em codificação e tarefas complexas de várias etapas.”

Para chegar ao Olmo 3.1 Instruct, a Ai2 disse que seus pesquisadores aplicaram a receita do tamanho menor do Instruct, 7B, ao modelo maior.

Olmo 3.1 Instrução 32B é "otimizado para bate-papo, uso de ferramentas e diálogo multiturno – tornando-o um irmão com muito mais desempenho do Olmo 3 Instruct 7B e pronto para aplicações do mundo real”, disse Ai2 em um postar no X.

Por enquanto, os novos checkpoints estão disponíveis no Ai2 Playground ou Hugging Face, com acesso à API em breve.

Melhor desempenho em benchmarks

Os modelos Olmo 3.1 tiveram um bom desempenho nos testes de benchmark, superando previsivelmente os modelos Olmo 3.

Olmo 3.1 Think superou os modelos Qwen 3 32B no benchmark AIME 2025 e teve desempenho próximo ao Gemma 27B.

O Olmo 3.1 Instruct teve um desempenho forte em relação aos seus pares de código aberto, superando até mesmo modelos como o Gemma 3 no benchmark Math.

“Quanto ao Olmo 3.1 32B Instruct, é um modelo de instrução em larga escala construído para bate-papo, uso de ferramentas e diálogo multi-turno. Olmo 3.1 32B Instruct é nosso modelo de bate-papo totalmente aberto mais capaz até o momento e – em nossas avaliações – o modelo de instrução totalmente aberto em escala 32B mais forte”, disse a empresa.

Ai2 também atualizou seus modelos RL-Zero 7B para matemática e codificação. A empresa disse no X que ambos os modelos se beneficiaram de treinos mais longos e estáveis.

Compromisso com a transparência e o código aberto

Ai2 disse anteriormente à VentureBeat que projetou a família de modelos Olmo 3 para oferecer às empresas e laboratórios de pesquisa mais controle e compreensão dos dados e treinamento incluídos no modelo.

As organizações poderiam adicionar dados ao mix de dados do modelo e treiná-lo novamente para também aprender com o que foi adicionado.

Este tem sido um compromisso há muito tempo para Ai2, que também oferece uma ferramenta chamada OlmoTrace que rastreia como as saídas do LLM correspondem aos seus dados de treinamento.

“Juntos, o Olmo 3.1 Think 32B e o Olmo 3.1 Instruct 32B mostram que a abertura e o desempenho podem avançar juntos. Ao estender o mesmo fluxo de modelo, continuamos a melhorar os recursos, mantendo a transparência de ponta a ponta sobre dados, código e decisões de treinamento”, disse Ai2.

Fonte ==> Cyberseo