Player Live
AO VIVO
29 de maio de 2026
MiniMax provoca o próximo modelo M3 com novo mecanismo de atenção esparsa e aumento de velocidade de resposta de longo contexto de 15,6X

MiniMax provoca o próximo modelo M3 com novo mecanismo de atenção esparsa e aumento de velocidade de resposta de longo contexto de 15,6X

Entre as muitas empresas e laboratórios chineses de IA que disputam participação de mercado e atenção (sem trocadilhos) no mercado global, a MiniMax se destaca por seu compromisso em fornecer inteligência de nível de fronteira em uma variedade de modalidades, incluindo texto, codificação e vídeo (através de sua série de modelos Hailuo) — muitas vezes sob licenças de código aberto padrão, permissivas e empresariais. Agora, MiniMax está novamente levantando as sobrancelhas de usuários avançados de IA e desenvolvedores em todo o mundo ao lançar um novo e aprofundado relatório técnico sobre a criação de sua popular série M2 de modelos de linguagem (M2, M2.5 e M2.7), lançando luz sobre suas inúmeras inovações de engenharia e abordagens inteligentes – enquanto a empresa e seus líderes também provocaram uma nova abordagem de atenção esparsa para sua próxima série de modelos MiniMax M3, que afirma produzir decodificação até 15,6 vezes mais rápida (ou Resposta LLM) acelera em contextos longos (um milhão de tokens) adotando uma estrutura subquadrática personalizada. Ao fazer isso, a MiniMax projetou o M3 para tornar economicamente viável a implantação de agentes de IA em contexto ultralongo. O relatório M2 é digno de nota para qualquer empresa que trabalhe com modelos de IA e, especialmente, para aquelas que procuram aperfeiçoar e treinar os seus próprios modelos internamente. Afinal, os modelos da série M2 do MiniMax frequentemente alcançaram os melhores benchmarks do mundo em desempenho de IA de código aberto quando foram lançados. Embora o título tenha sido eclipsado por vários outros laboratórios chineses, incluindo DeepSeek e Xiaomi, o novo relatório da MiniMax oferece um modelo que pode ser usado para melhorar o modelo de IA e o desempenho dos agentes por empresas em todo o mundo. Como Adina Yakup do Hugging Face observou no X, "Além dos benchmarks, eles fizeram um trabalho realmente sólido em eficiência do MoE e design orientado a agentes. Animado para ver onde o M3 vai a seguir!" O dilema da atenção A arquitetura técnica central da série M2 depende de um layout de transformador esparso de decodificador Mixture-of-Experts (MoE), usado por vários outros LLMs de última geração. O backbone fundamental abriga 229,9 bilhões de parâmetros totais, mas mantém uma pegada operacional notavelmente enxuta, ativando apenas 9,8 bilhões de parâmetros por token em 256 especialistas refinados. Para otimizar o roteamento e evitar problemas de balanceamento de carga padrão, no entanto, o MiniMax implementou o gate sigmóide emparelhado com termos de polarização específicos de especialistas que podem ser aprendidos, reduzindo fortemente a dependência de perdas auxiliares restritivas. A decisão de engenharia mais definitiva documentada no artigo M2 foi a adesão estrita à atenção total de vários cabeçotes com atenção de consulta agrupada (GQA) em todas as 62 camadas. Em grandes modelos de linguagem, "escala quadrática" refere-se à realidade computacionalmente cara dos mecanismos padrão de atenção total, onde cada token em uma sequência deve se conectar matematicamente a todos os outros tokens. Para usar uma analogia do mundo real, é como participar de um evento de networking e ser forçado a ter uma conversa profunda com cada pessoa na sala enquanto monitora simultaneamente todas as outras conversas em andamento. Embora essa abordagem produza um contexto incrivelmente completo, o poder de processamento e a memória necessários explodem no quadrado do comprimento da entrada, criando um grave gargalo de hardware à medida que os modelos tentam ingerir centenas de milhares de palavras. O problema com escala subquadrática "Subquadrático" o dimensionamento introduz atalhos arquitetônicos projetados para contornar essa carga computacional exponencial. Em vez de mapear todas as conexões possíveis, métodos subquadráticos – como atenção de janela deslizante ou atenção linear comprimida – podem analisar apenas uma janela localizada de palavras próximas ou gerar um resumo compactado do texto mais amplo. Esses métodos eficientes reduzem drasticamente os custos de hardware e permitem que os modelos processem documentos enormes em alta velocidade, mas historicamente introduzem graves compensações na precisão, muitas vezes fazendo com que a IA perca o foco. "quadro geral" ou perder o controle do contexto distante. Este dilema matemático define a evolução arquitetônica do M2 do MiniMax até sua próxima série M3. Durante o desenvolvimento do M2, os pesquisadores testaram rigorosamente os atalhos subquadráticos, mas descobriram que eles prejudicavam o modelo. "raciocínio multi-hop"—sua capacidade de conectar pistas díspares em um longo documento—forçando a equipe a absorver o enorme custo computacional da atenção quadrática total para manter a inteligência de nível de fronteira. Na verdade, eles avaliaram agressivamente alternativas de atenção eficientes durante o pré-treinamento, mas as descartaram intencionalmente. Eles experimentaram extensivamente configurações híbridas, intercalando atenção total com arquiteturas subquadráticas, como Lightning Attention ou configurações híbridas Sliding Window Attention (SWA). Os resultados empíricos foram definitivos: em uma escala maior, as variantes de atenção linear e em janela exibiram graves déficits de raciocínio. Em avaliações que excedem janelas de contexto de 32K, as variantes do SWA tiveram desempenho significativamente pior do que a atenção total, caindo de uma pontuação inicial de 90,0 para 72,0 na tarefa de extração de palavras complexas RULER 128K. As configurações subquadráticas mostraram-se propensas a restrições de memória durante o treinamento, não tinham suporte de cache de prefixo nativo e não conseguiram se alinhar suavemente com os módulos Multi-Token Prediction (MTP) usados ​​para decodificação especulativa. Atenção total foi considerada necessária para preservar a capacidade de raciocínio multi-hop. No entanto, reconhecendo que os limites físicos do hardware não podem sustentar a escala quadrática indefinidamente, a MiniMax está projetando a série M3 em torno de uma nova estrutura subquadrática para finalmente fornecer processamento de alta velocidade e raciocínio descomprometido. MiniMax Sparse Attention (MSA) e entrada de escala subquadrática O próximo MiniMax-M3 rompe com as restrições pesadas de computação de seu antecessor. Conforme divulgado pela equipe de engenharia da MiniMax sob o banner "Algo GRANDE está por vir," M3 apresenta "Atenção escassa MiniMax" (MSA). Ao contrário do Multi-head Latent Attention (MLA) do DeepSeek, que compacta chaves e valores em um espaço latente de baixa dimensão, o MSA opera em um backbone GQA padrão, mas utiliza seleção em nível de bloco em valores-chave

Leia Mais »