Tecnologia

O Mamba 3 de código aberto chega para superar a arquitetura Transformer com quase 4% de modelagem de linguagem aprimorada e latência reduzida

Editor Handelsblatt

A era da IA generativa começou para a maioria das pessoas com o lançamento do ChatGPT da OpenAI no final de 2022, mas a tecnologia subjacente – o "Transformador" arquitetura de rede neural que permite que modelos de IA avaliem a importância de palavras diferentes em uma frase (ou pixels em uma imagem) de maneira diferente e treinem informações em paralelo – remonta ao artigo seminal do Google de 2017 "Atenção é tudo que você precisa."

No entanto, embora os Transformers ofereçam uma qualidade de modelo incomparável e tenham sustentado a maioria dos principais modelos generativos de IA usados atualmente, eles são computacionalmente glutões. Eles são sobrecarregados por demandas de computação quadrática e memória linear que tornam a inferência em grande escala um empreendimento caro e muitas vezes proibitivo. Daí o desejo de alguns pesquisadores de melhorá-los desenvolvendo uma nova arquitetura, Mamba, em 2023, que passou a ser incluída em modelos híbridos Mamba-Transformer como o Nemotron 3 Super da Nvidia.

Agora, os mesmos pesquisadores por trás da arquitetura Mamba original, incluindo os líderes Albert Gu da Carnegie Mellon e Tri Dao de Princeton, lançaram a versão mais recente de sua nova arquitetura, Mamba-3, como um modelo de linguagem sob uma licença permissiva de código aberto Apache 2.0 – tornando-a imediatamente disponível para desenvolvedores, incluindo empresas para fins comerciais. Um artigo técnico também foi publicado em arXiv.org.

Este modelo sinaliza uma mudança de paradigma da eficiência do treinamento para uma "inferência primeiro" projeto. Como Gu observou no anúncio oficial, enquanto o Mamba-2 se concentrou em quebrar os gargalos do pré-treinamento, o Mamba-3 visa resolver o "GPU fria" problema: a realidade de que durante a decodificação, o hardware moderno muitas vezes permanece ocioso, aguardando a movimentação da memória em vez de realizar a computação.

Perplexidade (não, não a empresa) e a nova eficiência do Mamba 3

Mamba, incluindo Mamba 3, é um tipo de Modelo de Espaço de Estados (SSM).

Estes são efetivamente "máquina de resumo" para IA. Embora muitos modelos populares (como os por trás do ChatGPT) tenham que reexaminar cada palavra que já viram para entender o que vem a seguir – o que fica mais lento e mais caro quanto mais a conversa dura – um SSM mantém um estado interno compacto e em constante mudança. Este estado é essencialmente um estado digital "instantâneo mental" de todo o histórico dos dados.

À medida que novas informações fluem, o modelo simplesmente atualiza esse instantâneo em vez de reler tudo desde o início. Isto permite que a IA processe grandes quantidades de informação, como bibliotecas inteiras de livros ou longos filamentos de ADN, com uma velocidade incrível e requisitos de memória muito mais baixos.

Para apreciar o salto que o Mamba-3 representa, é preciso primeiro compreender a perplexidade, a principal métrica utilizada na investigação para medir a qualidade do modelo.

No contexto da modelagem de linguagem, a perplexidade é uma medida de quão "surpreso" um modelo é baseado em novos dados.

Pense em um modelo como um jogador profissional. Se um modelo apresenta alta perplexidade, ele não sabe ao certo onde fazer suas apostas; ele vê muitas próximas palavras possíveis como igualmente prováveis.

Uma pontuação de perplexidade mais baixa indica que o modelo é mais "certo"—tem uma melhor compreensão dos padrões subjacentes da linguagem humana. Para os construtores de IA, a perplexidade serve como um proxy de alta fidelidade para a inteligência.

O avanço relatado na investigação do Mamba-3 é que este atinge uma perplexidade comparável à do seu antecessor, o Mamba-2, ao mesmo tempo que utiliza apenas metade do tamanho do estado. Isso significa que um modelo pode ser igualmente inteligente e ao mesmo tempo ter operação duas vezes mais eficiente.

Uma nova filosofia

A filosofia que orienta o Mamba-3 é uma mudança fundamental na forma como pensamos sobre IA "inteligência" versus a velocidade do hardware em que ele é executado. Enquanto a geração anterior, Mamba-2, foi projetada para ser treinada em velocidades recordes, o Mamba-3 é um "inferência primeiro" arquitetura — inferência referente à forma como os modelos de IA são servidos aos usuários finais, por meio de sites como ChatGPT ou Google Gemini, ou por meio de interfaces de programação de aplicativos (APIs).

O objetivo principal do Mamba 3 é maximizar cada segundo que o chip do computador (GPU) está ativo, garantindo que o modelo pense o máximo possível sem fazer o usuário esperar por uma resposta.

No mundo dos modelos de linguagem, cada ponto de precisão é conquistado com dificuldade. Na escala de 1,5 bilhão de parâmetros, o mais avançado "MIMO" A variante do Mamba-3 alcançou uma precisão média de 57,6% em todos os benchmarks, representando um salto de 2,2 pontos percentuais em relação ao Transformer padrão da indústria.

Embora um salto de dois pontos possa parecer modesto, na verdade representa um aumento relativo de quase 4% na capacidade de modelagem de linguagem em comparação com a linha de base do Transformer. Ainda mais impressionante, como mencionado acima, o Mamba-3 pode igualar a qualidade preditiva do seu antecessor, usando apenas metade da capacidade interna "tamanho do estado," fornecendo efetivamente o mesmo nível de inteligência com significativamente menos atraso de memória.

Durante anos, alternativas eficientes aos transformadores sofreram com uma "lacuna lógica"— muitas vezes falhavam em tarefas simples de raciocínio, como acompanhar padrões ou resolver aritmética básica, porque sua matemática interna era muito rígida. O Mamba-3 resolve isso introduzindo estados de valores complexos.

Esta atualização matemática atua como uma bússola interna, permitindo que o modelo represente "rotacional" lógica. Ao usar isso "rotativo" abordagem, o Mamba-3 pode resolver quase perfeitamente quebra-cabeças lógicos e tarefas de rastreamento de estado que seus antecessores só podiam adivinhar, finalmente equiparando o poder de raciocínio dos modelos lineares aos sistemas mais avançados.

A peça final do quebra-cabeça é como o Mamba-3 interage com o hardware físico. A maioria dos modelos de IA hoje são "ligado à memória," o que significa que o chip do computador passa a maior parte do tempo ocioso, aguardando que os dados sejam transferidos da memória para o processador.

O Mamba-3 introduz uma formulação Multi-Input, Multi-Output (MIMO) que muda fundamentalmente esta dinâmica. Ao realizar até quatro vezes mais operações matemáticas em paralelo durante cada etapa, o Mamba-3 utiliza o que anteriormente "parado" poder. Isso permite que o modelo faça significativamente mais "pensamento" para cada palavra gerada sem aumentar o tempo real que o usuário gasta esperando por uma resposta. Mais sobre isso abaixo.

Três novos saltos tecnológicos

O apelo dos modelos lineares sempre foram seus requisitos constantes de memória e escala de computação linear.

No entanto, como apontam os autores do Mamba 3, há "sem almoço grátis". Ao fixar o tamanho do estado para garantir a eficiência, esses modelos são forçados a comprimir todo o contexto histórico em uma única representação – exatamente o oposto do crescente cache KV de um Transformer. O Mamba-3 usa três alavancas específicas para fazer com que esse estado fixo funcione mais.

1. Discretização Exponencial-Trapezoidal

Os Modelos de Espaço de Estados são fundamentalmente sistemas de tempo contínuo que devem ser "discretizado" para lidar com as sequências discretas de dados digitais.

As iterações anteriores dependiam "Exponencial-Euler" discretização – uma heurística que forneceu apenas uma aproximação de primeira ordem do sistema.

Mamba-3 apresenta um regra trapezoidal generalizadafornecendo aproximação precisa de segunda ordem. Isto não é apenas um refinamento matemático; isso induz uma "convolução implícita" dentro da recorrência central.

Ao combinar isso com termos de viés B e C explícitos, os pesquisadores conseguiram remover a curta convolução causal que tem sido um elemento básico das arquiteturas recorrentes há anos.

2. MUS de valor complexo e o "Truque de corda"

Uma das críticas mais persistentes aos modelos lineares tem sido a sua incapacidade de resolver tarefas simples de rastreamento de estado, como determinar a paridade de uma sequência de bits.

Esta falha decorre da restrição da matriz de transição a números reais, o que impede o modelo de representar "rotacional" Dynamics.Mamba-3 supera isso vendo o SSM subjacente como de valor complexo.

Usando o que a equipe chama de "Truque de corda," eles demonstram que uma atualização de estado de valor complexo é matematicamente equivalente a uma incorporação rotativa dependente de dados (RoPE) aplicada às projeções de entrada e saída.

Isto permite ao Mamba-3 resolver tarefas de raciocínio sintético que eram impossíveis para o Mamba-2.

3. MIMO: Aumentando a intensidade aritmética

O salto mais significativo na eficiência da inferência vem da transição de Entrada Única, Saída Única (SISO) para Múltiplas entradas, múltiplas saídas (MIMO) SSM.

Em um SSM padrão, a atualização de estado é uma operação de produto externo que depende fortemente da memória. Ao mudar para uma atualização de estado baseada em multiplicação de matrizes, o Mamba-3 aumenta o "intensidade aritmética" do modelo – a proporção de FLOPs em relação ao tráfego de memória.

Isso permite que o modelo execute mais cálculos durante a fase de decodificação vinculada à memória. Essencialmente, o Mamba-3 utiliza o "parado" núcleos de computação da GPU para aumentar o poder do modelo para "livre," mantendo a mesma velocidade de decodificação de seus antecessores mais simples.

O que o Mamba 3 significa para empresas e construtores de IA

Para as empresas, o Mamba-3 representa uma mudança estratégica no custo total de propriedade (TCO) para implantações de IA.

Custo x desempenho: Pelo desempenho de parâmetros correspondentes, o Mamba-3 (MIMO) corresponde à perplexidade do Mamba-2 enquanto usa metade do tamanho do estado. Para implantação empresarial, isso efetivamente duplica o rendimento de inferência para o mesmo espaço de hardware.
Fluxos de Trabalho Agentes: à medida que as organizações avançam em direção a fluxos de trabalho de agentes paralelos (como codificação automatizada ou agentes de atendimento ao cliente em tempo real), a demanda por geração de baixa latência aumenta exponencialmente. O Mamba-3 foi projetado especificamente para evitar que o hardware da GPU fique parado "frio" durante essas tarefas.
A vantagem híbrida: Os pesquisadores prevêem que o futuro da IA empresarial reside em modelos híbridos. Ao intercalar o Mamba-3 com a autoatenção, as organizações podem combinar a eficiência "memória" dos MUS com a precisão "banco de dados" armazenamento de transformadores.

Disponibilidade, licenciamento e uso

Mamba-3 não é apenas um artigo de pesquisa teórica; é uma versão de código aberto totalmente realizada, disponível para uso imediato com código de modelo publicado no Github.

O projeto é lançado sob a licença Apache-2.0. Esta é uma licença permissiva e favorável aos negócios que permite uso gratuito, modificação e distribuição comercial sem exigir a divulgação de código-fonte proprietário.

Esta versão é boa para desenvolvedores que criam aplicativos de longo contexto, agentes de raciocínio em tempo real ou aqueles que buscam reduzir custos de GPU em ambientes de produção de alto volume.

Liderando a revolução dos Modelos Espaciais de Estado (SSM)

O lançamento foi recebido com entusiasmo nas redes sociais, principalmente no que diz respeito ao "liderado por estudantes" natureza do projeto. Gu, cuja biografia no X/Twitter o descreve como "liderando a revolução SSM," deu crédito total aos líderes dos alunos, incluindo Akash Lahoti e Kevin Y. Li

O tópico de .Gu destacou a satisfação da equipe com o design:

"Estamos muito felizes com o design final do modelo! As três mudanças metodológicas principais são inspiradas (imo) em alguns métodos e matemática elegantes."

À medida que os fluxos de trabalho dos agentes impulsionam a demanda de inferência "pelo telhado," a chegada do Mamba-3 sugere que o futuro da IA pode não consistir apenas em ter o maior modelo, mas em ter o mais eficiente.

O Mamba-3 realinhou com sucesso o SSM com as realidades do hardware moderno, provando que mesmo na era do Transformer, os princípios da teoria clássica de controle ainda têm um papel vital a desempenhar.

Fonte ==> Cyberseo