Player Live
AO VIVO
18 de março de 2026
O Mamba 3 de código aberto chega para superar a arquitetura Transformer com quase 4% de modelagem de linguagem aprimorada e latência reduzida

O Mamba 3 de código aberto chega para superar a arquitetura Transformer com quase 4% de modelagem de linguagem aprimorada e latência reduzida

A era da IA ​​generativa começou para a maioria das pessoas com o lançamento do ChatGPT da OpenAI no final de 2022, mas a tecnologia subjacente – o "Transformador" arquitetura de rede neural que permite que modelos de IA avaliem a importância de palavras diferentes em uma frase (ou pixels em uma imagem) de maneira diferente e treinem informações em paralelo – remonta ao artigo seminal do Google de 2017 "Atenção é tudo que você precisa." No entanto, embora os Transformers ofereçam uma qualidade de modelo incomparável e tenham sustentado a maioria dos principais modelos generativos de IA usados ​​atualmente, eles são computacionalmente glutões. Eles são sobrecarregados por demandas de computação quadrática e memória linear que tornam a inferência em grande escala um empreendimento caro e muitas vezes proibitivo. Daí o desejo de alguns pesquisadores de melhorá-los desenvolvendo uma nova arquitetura, Mamba, em 2023, que passou a ser incluída em modelos híbridos Mamba-Transformer como o Nemotron 3 Super da Nvidia. Agora, os mesmos pesquisadores por trás da arquitetura Mamba original, incluindo os líderes Albert Gu da Carnegie Mellon e Tri Dao de Princeton, lançaram a versão mais recente de sua nova arquitetura, Mamba-3, como um modelo de linguagem sob uma licença permissiva de código aberto Apache 2.0 – tornando-a imediatamente disponível para desenvolvedores, incluindo empresas para fins comerciais. Um artigo técnico também foi publicado em arXiv.org. Este modelo sinaliza uma mudança de paradigma da eficiência do treinamento para uma "inferência primeiro" projeto. Como Gu observou no anúncio oficial, enquanto o Mamba-2 se concentrou em quebrar os gargalos do pré-treinamento, o Mamba-3 visa resolver o "GPU fria" problema: a realidade de que durante a decodificação, o hardware moderno muitas vezes permanece ocioso, aguardando a movimentação da memória em vez de realizar a computação. Perplexidade (não, não a empresa) e a nova eficiência do Mamba 3 Mamba, incluindo Mamba 3, é um tipo de Modelo de Espaço de Estados (SSM). Estes são efetivamente "máquina de resumo" para IA. Embora muitos modelos populares (como os por trás do ChatGPT) tenham que reexaminar cada palavra que já viram para entender o que vem a seguir – o que fica mais lento e mais caro quanto mais a conversa dura – um SSM mantém um estado interno compacto e em constante mudança. Este estado é essencialmente um estado digital "instantâneo mental" de todo o histórico dos dados. À medida que novas informações fluem, o modelo simplesmente atualiza esse instantâneo em vez de reler tudo desde o início. Isto permite que a IA processe grandes quantidades de informação, como bibliotecas inteiras de livros ou longos filamentos de ADN, com uma velocidade incrível e requisitos de memória muito mais baixos. Para apreciar o salto que o Mamba-3 representa, é preciso primeiro compreender a perplexidade, a principal métrica utilizada na investigação para medir a qualidade do modelo. No contexto da modelagem de linguagem, a perplexidade é uma medida de quão "surpreso" um modelo é baseado em novos dados. Pense em um modelo como um jogador profissional. Se um modelo apresenta alta perplexidade, ele não sabe ao certo onde fazer suas apostas; ele vê muitas próximas palavras possíveis como igualmente prováveis. Uma pontuação de perplexidade mais baixa indica que o modelo é mais "certo"—tem uma melhor compreensão dos padrões subjacentes da linguagem humana. Para os construtores de IA, a perplexidade serve como um proxy de alta fidelidade para a inteligência. O avanço relatado na investigação do Mamba-3 é que este atinge uma perplexidade comparável à do seu antecessor, o Mamba-2, ao mesmo tempo que utiliza apenas metade do tamanho do estado. Isso significa que um modelo pode ser igualmente inteligente e ao mesmo tempo ter operação duas vezes mais eficiente. Uma nova filosofia A filosofia que orienta o Mamba-3 é uma mudança fundamental na forma como pensamos sobre IA "inteligência" versus a velocidade do hardware em que ele é executado. Enquanto a geração anterior, Mamba-2, foi projetada para ser treinada em velocidades recordes, o Mamba-3 é um "inferência primeiro" arquitetura — inferência referente à forma como os modelos de IA são servidos aos usuários finais, por meio de sites como ChatGPT ou Google Gemini, ou por meio de interfaces de programação de aplicativos (APIs). O objetivo principal do Mamba 3 é maximizar cada segundo que o chip do computador (GPU) está ativo, garantindo que o modelo pense o máximo possível sem fazer o usuário esperar por uma resposta. No mundo dos modelos de linguagem, cada ponto de precisão é conquistado com dificuldade. Na escala de 1,5 bilhão de parâmetros, o mais avançado "MIMO" A variante do Mamba-3 alcançou uma precisão média de 57,6% em todos os benchmarks, representando um salto de 2,2 pontos percentuais em relação ao Transformer padrão da indústria. Embora um salto de dois pontos possa parecer modesto, na verdade representa um aumento relativo de quase 4% na capacidade de modelagem de linguagem em comparação com a linha de base do Transformer. Ainda mais impressionante, como mencionado acima, o Mamba-3 pode igualar a qualidade preditiva do seu antecessor, usando apenas metade da capacidade interna "tamanho do estado," fornecendo efetivamente o mesmo nível de inteligência com significativamente menos atraso de memória. Durante anos, alternativas eficientes aos transformadores sofreram com uma "lacuna lógica"— muitas vezes falhavam em tarefas simples de raciocínio, como acompanhar padrões ou resolver aritmética básica, porque sua matemática interna era muito rígida. O Mamba-3 resolve isso introduzindo estados de valores complexos. Esta atualização matemática atua como uma bússola interna, permitindo que o modelo represente "rotacional" lógica. Ao usar isso "rotativo" abordagem, o Mamba-3 pode resolver quase perfeitamente quebra-cabeças lógicos e tarefas de rastreamento de estado que seus antecessores só podiam adivinhar, finalmente equiparando o poder de raciocínio dos modelos lineares aos sistemas mais avançados. A peça final do quebra-cabeça é como o Mamba-3 interage com o hardware físico. A maioria dos modelos de IA hoje são "ligado à memória," o que significa que o chip do computador passa a maior parte do tempo ocioso, aguardando que os dados sejam transferidos da memória para o processador.

Leia Mais »