
Divulgação/Agência Brasil Para deputado, a alta dos preços compromete a oferta de alimentação A Comissão

Marina Ramos / Câmara dos Deputados Motta: “É fundamental o diálogo com o governo” O

Pedro Menezes/Governo de Pernambuco Deputada quer discutir como assegurar continuidade e utilização longo do tempo

Vinicius Loures/Câmara dos Deputados Reunião da Comissão Especial sobre o Fim da Escala 6×1 (PEC

Ler Resumo Introdução A IA já é dominante na busca por emprego no Brasil: 73%

Diretor-Superintendente do Sebrae-SP, Nelson Hervey Costa, durante o lançamento do ELI em São José dos

Entre as muitas empresas e laboratórios chineses de IA que disputam participação de mercado e atenção (sem trocadilhos) no mercado global, a MiniMax se destaca por seu compromisso em fornecer inteligência de nível de fronteira em uma variedade de modalidades, incluindo texto, codificação e vídeo (através de sua série de modelos Hailuo) — muitas vezes sob licenças de código aberto padrão, permissivas e empresariais. Agora, MiniMax está novamente levantando as sobrancelhas de usuários avançados de IA e desenvolvedores em todo o mundo ao lançar um novo e aprofundado relatório técnico sobre a criação de sua popular série M2 de modelos de linguagem (M2, M2.5 e M2.7), lançando luz sobre suas inúmeras inovações de engenharia e abordagens inteligentes – enquanto a empresa e seus líderes também provocaram uma nova abordagem de atenção esparsa para sua próxima série de modelos MiniMax M3, que afirma produzir decodificação até 15,6 vezes mais rápida (ou Resposta LLM) acelera em contextos longos (um milhão de tokens) adotando uma estrutura subquadrática personalizada. Ao fazer isso, a MiniMax projetou o M3 para tornar economicamente viável a implantação de agentes de IA em contexto ultralongo. O relatório M2 é digno de nota para qualquer empresa que trabalhe com modelos de IA e, especialmente, para aquelas que procuram aperfeiçoar e treinar os seus próprios modelos internamente. Afinal, os modelos da série M2 do MiniMax frequentemente alcançaram os melhores benchmarks do mundo em desempenho de IA de código aberto quando foram lançados. Embora o título tenha sido eclipsado por vários outros laboratórios chineses, incluindo DeepSeek e Xiaomi, o novo relatório da MiniMax oferece um modelo que pode ser usado para melhorar o modelo de IA e o desempenho dos agentes por empresas em todo o mundo. Como Adina Yakup do Hugging Face observou no X, "Além dos benchmarks, eles fizeram um trabalho realmente sólido em eficiência do MoE e design orientado a agentes. Animado para ver onde o M3 vai a seguir!" O dilema da atenção A arquitetura técnica central da série M2 depende de um layout de transformador esparso de decodificador Mixture-of-Experts (MoE), usado por vários outros LLMs de última geração. O backbone fundamental abriga 229,9 bilhões de parâmetros totais, mas mantém uma pegada operacional notavelmente enxuta, ativando apenas 9,8 bilhões de parâmetros por token em 256 especialistas refinados. Para otimizar o roteamento e evitar problemas de balanceamento de carga padrão, no entanto, o MiniMax implementou o gate sigmóide emparelhado com termos de polarização específicos de especialistas que podem ser aprendidos, reduzindo fortemente a dependência de perdas auxiliares restritivas. A decisão de engenharia mais definitiva documentada no artigo M2 foi a adesão estrita à atenção total de vários cabeçotes com atenção de consulta agrupada (GQA) em todas as 62 camadas. Em grandes modelos de linguagem, "escala quadrática" refere-se à realidade computacionalmente cara dos mecanismos padrão de atenção total, onde cada token em uma sequência deve se conectar matematicamente a todos os outros tokens. Para usar uma analogia do mundo real, é como participar de um evento de networking e ser forçado a ter uma conversa profunda com cada pessoa na sala enquanto monitora simultaneamente todas as outras conversas em andamento. Embora essa abordagem produza um contexto incrivelmente completo, o poder de processamento e a memória necessários explodem no quadrado do comprimento da entrada, criando um grave gargalo de hardware à medida que os modelos tentam ingerir centenas de milhares de palavras. O problema com escala subquadrática "Subquadrático" o dimensionamento introduz atalhos arquitetônicos projetados para contornar essa carga computacional exponencial. Em vez de mapear todas as conexões possíveis, métodos subquadráticos – como atenção de janela deslizante ou atenção linear comprimida – podem analisar apenas uma janela localizada de palavras próximas ou gerar um resumo compactado do texto mais amplo. Esses métodos eficientes reduzem drasticamente os custos de hardware e permitem que os modelos processem documentos enormes em alta velocidade, mas historicamente introduzem graves compensações na precisão, muitas vezes fazendo com que a IA perca o foco. "quadro geral" ou perder o controle do contexto distante. Este dilema matemático define a evolução arquitetônica do M2 do MiniMax até sua próxima série M3. Durante o desenvolvimento do M2, os pesquisadores testaram rigorosamente os atalhos subquadráticos, mas descobriram que eles prejudicavam o modelo. "raciocínio multi-hop"—sua capacidade de conectar pistas díspares em um longo documento—forçando a equipe a absorver o enorme custo computacional da atenção quadrática total para manter a inteligência de nível de fronteira. Na verdade, eles avaliaram agressivamente alternativas de atenção eficientes durante o pré-treinamento, mas as descartaram intencionalmente. Eles experimentaram extensivamente configurações híbridas, intercalando atenção total com arquiteturas subquadráticas, como Lightning Attention ou configurações híbridas Sliding Window Attention (SWA). Os resultados empíricos foram definitivos: em uma escala maior, as variantes de atenção linear e em janela exibiram graves déficits de raciocínio. Em avaliações que excedem janelas de contexto de 32K, as variantes do SWA tiveram desempenho significativamente pior do que a atenção total, caindo de uma pontuação inicial de 90,0 para 72,0 na tarefa de extração de palavras complexas RULER 128K. As configurações subquadráticas mostraram-se propensas a restrições de memória durante o treinamento, não tinham suporte de cache de prefixo nativo e não conseguiram se alinhar suavemente com os módulos Multi-Token Prediction (MTP) usados para decodificação especulativa. Atenção total foi considerada necessária para preservar a capacidade de raciocínio multi-hop. No entanto, reconhecendo que os limites físicos do hardware não podem sustentar a escala quadrática indefinidamente, a MiniMax está projetando a série M3 em torno de uma nova estrutura subquadrática para finalmente fornecer processamento de alta velocidade e raciocínio descomprometido. MiniMax Sparse Attention (MSA) e entrada de escala subquadrática O próximo MiniMax-M3 rompe com as restrições pesadas de computação de seu antecessor. Conforme divulgado pela equipe de engenharia da MiniMax sob o banner "Algo GRANDE está por vir," M3 apresenta "Atenção escassa MiniMax" (MSA). Ao contrário do Multi-head Latent Attention (MLA) do DeepSeek, que compacta chaves e valores em um espaço latente de baixa dimensão, o MSA opera em um backbone GQA padrão, mas utiliza seleção em nível de bloco em valores-chave

Durante meses, os principais benchmarks de codificação de IA contaram aos compradores corporativos uma história reconfortante, mas enganosa: os principais modelos são praticamente

Nas últimas duas décadas, a dívida técnica significou arquitetura desatualizada, código confuso e documentação mal conservada. Essa definição já não é suficiente na

Há uma categoria de incidente de produção que as equipes de engenharia ainda não estão rastreando — porque ela não se ajusta a

Quando os fluxos de trabalho de agente falham, os desenvolvedores geralmente presumem que o problema está nas habilidades de raciocínio do modelo subjacente.

Em 19 de maio, 633 versões maliciosas de pacotes npm passaram na verificação de proveniência do Sigstore. Eles foram apagados pelo sistema porque

Empresa brasileira opera o primeiro condomínio residencial do país com entregas autônomas financiadas pelos moradores e amplia atuação em restaurantes, varejo e hospitalidade

FLEX aprimora o design de fachadas, apoia o trabalho de mídia no varejo e fornece insights sobre perdas A Sensormatic Solutions, portfólio global

A Dun & Bradstreet passou mais de 180 anos construindo um banco de dados comercial abrangente. Seu Gráfico Comercial, que abrange 642 milhões
Junho está se aproximando rapidamente, e isso significa a estreia de novas séries e filmes ao catálogo do Prime Video. O grande destaque

Divulgação/Agência Brasil Para deputado, a alta dos preços compromete a oferta de alimentação A Comissão de Direitos Humanos, Minorias e Igualdade Racial da

Com os advogados Danilo Campagnollo Bueno e Maria Eduarda Brasileiro Lopes à frente da defesa. A 15ª Câmara de Direito Criminal do Tribunal

Apresentação da artista emocionou o público e marcou um dos momentos mais comentados do evento no Rio de Janeiro RIO DE JANEIRO, RJ

Com os advogados Danilo Campagnollo Bueno e Victor Castanheira Santo André à frente do caso Vara Única de São José de Piranhas considerou

Especialista em gestão estratégica, Felipe Vieira explica como a estrutura de PMO transforma decisões corporativas em entregas reais dentro das organizações Em um

Uma trajetória construída pela escuta e pela proximidade Mais do que ocupar o papel de ex-primeira-dama de Mauá, Andreia Rolim Rios construiu sua

Como transformar uma exigência regulatória em vantagem estratégica? Por Armando Ribeiro* Certa vez, um gestor de RH experiente e dedicado me disse: “Armando, meu time está no limite e

Nunca foi tão fácil criar conteúdo. Ao mesmo tempo, nunca foi tão difícil parecer original. A inteligência artificial democratizou a produção. Hoje, qualquer

O café da manhã é considerado uma das refeições mais importantes do dia para o bom funcionamento do intestino. Segundo especialistas ouvidos pela

Especialista alerta que pequenas e médias empresas estão adotando inteligência artificial sem governança, sem direcionamento estratégico e sob forte influência dos próprios fornecedores
Um esquema envolvendo uma plataforma de apostas e jogos de cassino online proibidos no Brasil foi desmantelado em uma nova operação que pode
© 2025 Todos os direitos reservados a Handelsblatt