Tecnologia

A nova técnica da Nvidia reduz os custos de raciocínio LLM em 8x sem perder precisão

Editor Handelsblatt

Pesquisadores da Nvidia desenvolveram uma técnica que pode reduzir em até oito vezes os custos de memória do raciocínio de modelos de linguagem grande. Sua técnica, chamada esparsificação dinâmica de memória (DMS), compacta o cache de valor-chave (KV), os LLMs de memória temporária geram e armazenam à medida que processam prompts e raciocinam por meio de problemas e documentos.

Embora os pesquisadores tenham proposto vários métodos para compactar esse cache antes, a maioria luta para fazê-lo sem degradar a inteligência do modelo. A abordagem da Nvidia consegue descartar grande parte do cache enquanto mantém (e em alguns casos melhora) as capacidades de raciocínio do modelo.

Experimentos mostram que o DMS permite que os LLMs "pensar" por mais tempo e explore mais soluções sem a penalidade usual em velocidade ou custos de memória.

O gargalo do raciocínio

LLMs melhoram seu desempenho em tarefas complexas, gerando "cadeia de pensamento" tokens, essencialmente escrevendo suas etapas de raciocínio antes de chegar a uma resposta final. As técnicas de escalonamento de tempo de inferência aproveitam isso, dando ao modelo um orçamento maior para gerar esses tokens de pensamento ou para explorar vários caminhos de raciocínio potenciais em paralelo.

No entanto, esse raciocínio aprimorado acarreta um custo computacional significativo. À medida que o modelo gera mais tokens, ele cria um Cache KV.

Para aplicações do mundo real, o cache KV é um grande gargalo. À medida que a cadeia de raciocínio cresce, o cache cresce linearmente, consumindo grandes quantidades de memória nas GPUs. Isso força o hardware a gastar mais tempo lendo dados da memória do que realmente computando, o que retarda a geração e aumenta a latência. Ele também limita o número de usuários que um sistema pode atender simultaneamente, pois ficar sem VRAM faz com que o sistema trave ou fique lento.

Os investigadores da Nvidia enquadram isto não apenas como um obstáculo técnico, mas como um obstáculo económico fundamental para a empresa.

"A questão não é apenas a quantidade de hardware; trata-se de saber se sua infraestrutura está processando 100 threads de raciocínio ou 800 threads pelo mesmo custo," Piotr Nawrot, engenheiro sênior de aprendizado profundo da Nvidia, disse ao VentureBeat.

Tentativas anteriores para resolver isso focaram em abordagens baseadas em heurísticas. Esses métodos usam regras rígidas, como uma "janela deslizante" que armazena em cache apenas os tokens mais recentes e exclui o restante. Embora isso reduza o uso de memória, muitas vezes força o modelo a descartar informações críticas necessárias para resolver o problema, degradando a precisão da saída.

"Os métodos de despejo padrão tentam selecionar tokens antigos e não utilizados para despejo usando heurística," disseram os pesquisadores. "Eles simplificam o problema, esperando que, se aproximarem a mecânica interna do modelo, a resposta permaneça correta."

Outras soluções usam paginação para descarregar as partes não utilizadas do cache KV para uma memória mais lenta, mas a troca constante de dados introduz uma sobrecarga de latência que torna os aplicativos em tempo real lentos.

Esparsificação dinâmica de memória

O DMS adota uma abordagem diferente ao "modernização" LLMs existentes para gerenciar de forma inteligente sua própria memória. Em vez de aplicar uma regra fixa sobre o que excluir, o DMS treina o modelo para identificar quais tokens são essenciais para o raciocínio futuro e quais são descartáveis.

"Não apenas adivinha a importância; aprende uma política que preserva explicitamente a distribuição final da produção do modelo," Nawrot disse.

O processo transforma um LLM padrão pré-treinado, como Llama 3 ou Qwen 3, em um modelo autocompactável. Crucialmente, isso não exige o treinamento do modelo do zero, o que seria proibitivamente caro. Em vez disso, o DMS reaproveita os neurônios existentes nas camadas de atenção do modelo para produzir um "manter" ou "despejar" sinal para cada token.

Para as equipes preocupadas com a complexidade do retrofit, os pesquisadores observaram que o processo foi projetado para ser leve. "Para melhorar a eficiência deste processo, os pesos do modelo podem ser congelados, o que torna o processo semelhante ao Low-Rank Adaptation (LoRA)," Nawrot disse. Isso significa um modelo empresarial padrão como Qwen3-8B "pode ser adaptado com DMS em poucas horas em um único DGX H100."

Uma das partes importantes do DMS é um mecanismo chamado "despejo atrasado." Na esparsificação padrão, se um token for considerado sem importância, ele será excluído imediatamente. Isso é arriscado porque o modelo pode precisar de uma fração de segundo para integrar o contexto desse token ao seu estado atual.

O DMS mitiga isso sinalizando um token para despejo, mas mantendo-o acessível por um curto período de tempo (por exemplo, algumas centenas de etapas). Este atraso permite que o modelo "extrair" quaisquer informações necessárias restantes do token e mesclá-las no contexto atual antes que o token seja apagado do cache KV.

“O mecanismo de ‘despejo retardado’ é crucial porque nem todos os tokens são simplesmente ‘importantes’ (manter para sempre) ou ‘inúteis’ (excluir imediatamente). Muitos ficam no meio – eles carregam algumas informações, mas não o suficiente para justificar a ocupação de um slot inteiro na memória”, disse Nawrot. “É aqui que reside a redundância. Ao manter esses tokens em uma janela local por um curto período antes do despejo, permitimos que o modelo os atenda e redistribua suas informações em tokens futuros.”

Os pesquisadores descobriram que esse processo de retrofit é altamente eficiente. Eles poderiam equipar um LLM pré-treinado com DMS em apenas 1.000 etapas de treinamento, uma pequena fração da computação necessária para o treinamento original. Os modelos resultantes usam kernels padrão e podem ser colocados diretamente em pilhas de inferência de alto desempenho existentes, sem hardware personalizado ou reescrita complexa de software.

DMS em ação

Para validar a técnica, os pesquisadores aplicaram DMS a vários modelos de raciocínio, incluindo a série Qwen-R1 (destilada do DeepSeek R1) e Llama 3.2, e os testaram em benchmarks difíceis como AIME 24 (matemática), GPQA Diamond (ciência) e LiveCodeBench (codificação).

Os resultados mostram que o DMS efetivamente move a fronteira de Pareto, o equilíbrio ideal entre custo e desempenho. No benchmark matemático AIME 24, um modelo Qwen-R1 32B equipado com DMS alcançou uma pontuação 12,0 pontos maior que um modelo padrão quando restrito ao mesmo orçamento de largura de banda de memória. Ao compactar o cache, o modelo poderia se dar ao luxo de "pensar" muito mais profundo e amplo do que o modelo padrão poderia para o mesmo orçamento de memória e computação.

Talvez o mais surpreendente seja que o DMS desafiou o senso comum de que a compressão prejudica a compreensão de contextos longos. Em "agulha no palheiro" testes, que medem a capacidade de um modelo de encontrar uma informação específica enterrada em um documento grande, as variantes do DMS na verdade superaram os modelos padrão. Ao gerenciar ativamente sua memória, em vez de acumular ruído passivamente, o modelo manteve um contexto mais limpo e útil.

Para a infra-estrutura empresarial, os ganhos de eficiência traduzem-se directamente em poupanças de rendimento e de hardware. Como o cache de memória é significativamente menor, a GPU gasta menos tempo buscando dados, reduzindo o tempo de espera dos usuários. Em testes com o modelo Qwen3-8B, o DMS correspondeu à precisão do modelo vanilla, ao mesmo tempo que proporcionou um rendimento até 5x maior. Isso significa que um único servidor pode lidar com cinco vezes mais consultas de clientes por segundo sem queda na qualidade.

O futuro da memória

Nvidia lançou DMS como parte de seu Biblioteca KVPress. Quanto à forma como as empresas podem começar a utilizar o DMS, Nawrot enfatizou que a barreira à entrada é baixa. "A ‘infraestrutura mínima viável’ são os pipelines padrão do Hugging Face – nenhum kernel CUDA personalizado é necessário," Nawrot disse, observando que o código é totalmente compatível com o FlashAttention padrão.

Olhando para o futuro, a equipe vê o DMS como parte de uma mudança maior, onde o gerenciamento de memória se torna uma camada distinta e inteligente da pilha de IA. Nawrot também confirmou que o DMS é "totalmente compatível" com arquiteturas mais recentes como o Atenção latente de múltiplas cabeças (MLA) usado nos modelos da DeepSeek, sugerindo que a combinação dessas abordagens poderia gerar ganhos de eficiência ainda maiores.

À medida que as empresas passam de simples chatbots para sistemas de agentes complexos que exigem raciocínio alargado, o custo da inferência está a tornar-se uma preocupação primordial. Técnicas como o DMS fornecem um caminho para dimensionar essas capacidades de forma sustentável.

"Mal arranhamos a superfície do que é possível," Nawrot disse: "e esperamos que a escala do tempo de inferência evolua ainda mais."

Fonte ==> Cyberseo