
Kayo Magalhães / Câmara dos Deputados Clarissa Tércio, relatora na comissão A Comissão de Previdência,

Renato Araújo / Câmara dos Deputados Deputada Laura Carneiro, relatora do projeto de lei A

José Fernando Ogura/Agência de Notícias do Paraná Nova lei busca reduzir custos para as micro

Bruno Spada/Câmara dos Deputados Felipe Carreras durante a leitura do relatório O Grupo de Trabalho

A indústria de games parece viver em um ciclo constante e interminável de demissões. Periodicamente,

Mulheres empreendedoras inspiram com suas histórias na região de Campinas (Foto: Divulgação) A analista diz




Processar 200.000 tokens por meio de um grande modelo de linguagem é caro e lento: quanto mais longo o contexto, mais rápida será a espiral de custos. Pesquisadores da Universidade Tsinghua e Z.ai construíram uma técnica chamada IndexCache que corta até 75% da computação redundante em modelos de atenção esparsa, proporcionando tempo de geração do primeiro token até 1,82x mais rápido e taxa de transferência de geração 1,48x mais rápida nesse comprimento de contexto. A técnica se aplica a modelos que usam a arquitetura DeepSeek Sparse Attention, incluindo as famílias DeepSeek e GLM mais recentes. Ele pode ajudar as empresas a fornecer experiências de usuário mais rápidas para modelos de longo contexto e em escala de produção, uma capacidade já comprovada em testes preliminares no modelo GLM-5 de 744 bilhões de parâmetros. O gargalo do DSA Grandes modelos de linguagem dependem do mecanismo de autoatenção, um processo em que o modelo calcula o relacionamento entre cada token em seu contexto e todos os anteriores para prever o próximo token. No entanto, a autoatenção tem uma limitação severa. Sua complexidade computacional aumenta quadraticamente com o comprimento da sequência. Para aplicativos que exigem janelas de contexto estendidas (por exemplo, processamento de documentos grandes, fluxos de trabalho de agentes em várias etapas ou raciocínio de longa cadeia de pensamento), esse dimensionamento quadrático leva a velocidades de inferência lentas e custos significativos de computação e memória. Atenção escassa oferece uma solução de princípios para esse problema de escala. Em vez de calcular o relacionamento entre cada token e todos os anteriores, a atenção esparsa otimiza o processo, fazendo com que cada consulta selecione e atenda apenas ao subconjunto de tokens mais relevante. Atenção escassa do DeepSeek (DSA) é uma implementação altamente eficiente deste conceito, introduzido pela primeira vez em DeepSeek-V3.2. Para determinar quais tokens são mais importantes, o DSA apresenta um modelo leve "módulo indexador relâmpago" em cada camada do modelo. Este indexador pontua todos os tokens anteriores e seleciona um pequeno lote para ser processado pelo principal mecanismo de atenção central. Ao fazer isso, o DSA reduz o cálculo pesado da atenção central de quadrático para linear, acelerando drasticamente o modelo e preservando a qualidade da saída. Mas os pesquisadores identificaram uma falha persistente: o próprio indexador DSA ainda opera com complexidade quadrática em cada camada. Embora o indexador seja computacionalmente mais barato do que o processo de atenção principal, à medida que o comprimento do contexto aumenta, o tempo que o modelo gasta executando esses indexadores dispara. Isso desacelera severamente o modelo, especialmente durante o "pré-preencher" estágio onde o prompt é processado pela primeira vez. Colocando atenção em cache com IndexCache Para resolver o gargalo do indexador, a equipe de pesquisa descobriu uma característica crucial de como os modelos DSA processam dados. O subconjunto de tokens importantes que um indexador seleciona permanece notavelmente estável à medida que os dados se movem através de camadas consecutivas do transformador. Testes empíricos em modelos DSA revelaram que as camadas adjacentes compartilham entre 70% e 100% dos tokens selecionados. Para aproveitar essa redundância entre camadas, os pesquisadores desenvolveram o IndexCache. A técnica particiona as camadas do modelo em duas categorias. Um pequeno número de camadas completas (F) retém seus indexadores, pontuando ativamente os tokens e escolhendo os mais importantes para armazenar em cache. O restante das camadas torna-se compartilhado (S), não realizando nenhuma indexação e reutilizando os índices armazenados em cache da camada F anterior mais próxima. Durante a inferência, o modelo simplesmente verifica o tipo de camada. Se atingir uma camada F, ele calcula e armazena em cache novos índices. Se for uma camada S, ela ignora a matemática e copia os dados armazenados em cache. Há uma ampla gama de técnicas de otimização que tentam resolver o gargalo de atenção, compactando o cache KVonde os valores de atenção computados são armazenados. Em vez de reduzir o consumo de memória como a compactação de cache KV padrão, o IndexCache ataca o gargalo da computação. “IndexCache não é uma técnica tradicional de compactação ou compartilhamento de cache KV”, disse Yushi Bai, coautor do artigo, ao VentureBeat. “Ele elimina essa redundância ao reutilizar índices entre camadas, reduzindo assim a computação em vez de apenas o consumo de memória. É complementar às abordagens existentes e pode ser combinado com elas.” Os pesquisadores desenvolveram duas abordagens de implantação para IndexCache. (É importante notar que IndexCache se aplica apenas a modelos que usam a arquitetura DSA, como os modelos DeepSeek mais recentes e a família mais recente de modelos GLM.) Para desenvolvedores que trabalham com modelos DSA prontos para uso, onde o retreinamento é inviável ou muito caro, eles criaram um método sem treinamento baseado em um algoritmo de “seleção de camada gananciosa”. Ao executar um pequeno conjunto de dados de calibração no modelo, este algoritmo determina automaticamente o posicionamento ideal das camadas F e S sem nenhuma atualização de peso. Evidências empíricas mostram que o algoritmo ganancioso pode remover com segurança 75% dos indexadores, ao mesmo tempo que corresponde ao desempenho downstream do modelo original. Para equipes que estão pré-treinando ou ajustando fortemente seus próprios modelos básicos, os pesquisadores propõem uma versão com reconhecimento de treinamento que otimiza os parâmetros de rede para suportar nativamente o compartilhamento entre camadas. Esta abordagem introduz uma “perda de destilação multicamadas” durante o treinamento. Isso força cada indexador retido a aprender como selecionar um subconjunto de tokens de consenso que será altamente relevante para todas as camadas subsequentes que ele atende. Aceleração do mundo real em modelos de produção Para testar o impacto do IndexCache, os pesquisadores aplicaram-no ao parâmetro de 30 bilhões Flash GLM-4.7 modelo e comparou-o com a linha de base padrão. Em um comprimento de contexto de 200K, a remoção de 75% dos indexadores reduziu a latência de pré-preenchimento de 19,5 segundos para apenas 10,7 segundos, proporcionando uma aceleração de 1,82x. Os pesquisadores observam que se espera que essas acelerações sejam ainda maiores em contextos mais longos. Durante a fase de decodificação, onde o modelo gera sua resposta, o

A Intercom está fazendo uma aposta incomum para uma empresa de software legado: construir seu próprio modelo de IA. A enorme plataforma de

À medida que os Large Language Models (LLMs) expandem suas janelas de contexto para processar documentos massivos e conversas complexas, eles se deparam

A OpenAI está fechando o Sora, seu aplicativo independente de geração de vídeo de IA e rede social, e a disponibilidade para os

Look, we've spent the last 18 months building production AI systems, and we'll tell you what keeps us up at night — and

Não muito tempo atrás, a ideia de ser um “generalista” no local de trabalho tinha uma reputação mista. O estereótipo era o “pau

A IA de voz está se movendo mais rápido do que as ferramentas que usamos para medi-la. Todos os principais laboratórios de IA

Os grandes modelos de linguagem estão a atingir limites em domínios que exigem uma compreensão do mundo físico – desde a robótica à

O futuro da IA não é apenas agente; é uma personalização profunda. Em vez de simples sistemas de recomendação que correlacionam o comportamento

O xerife Budensiek disse a repórteres em entrevista coletiva que o acidente aconteceu depois que Woods supostamente tentou ultrapassar um caminhão de limpeza

A plataforma Steam, da Valve, recebe centenas de novos jogos semanalmente e pode ser difícil dar conta de tudo que fica disponível para

Empreendedora e CEO da Pluss TV Channel amplia sua atuação na TV após consolidar um ecossistema audiovisual voltado para marcas, criadores e histórias

Kayo Magalhães / Câmara dos Deputados Clarissa Tércio, relatora na comissão A Comissão de Previdência, Assistência Social, Infância, Adolescência e Família aprovou o

Conhecida como DJ MIJON, a empresária brasileira construiu uma trajetória que conecta música, branding e estratégia digital, ampliando sua atuação para o mercado

Diante do excesso de discursos vazios na internet, cresce a dúvida sobre o que de fato é entregue — e a necessidade de

Recurso já é utilizado pela empresa como auxiliar no gerenciamento financeiro de múltiplos ambientes em nuvem de seus clientes Controlar custos em ambientes

Em 2025, ano em que celebrou 25 anos de atuação, a BrazilFoundation alcançou o maior volume anual de investimento de sua história: mais

A cidade de Marau, no Rio Grande do Sul, sede da Purificatta, foi palco da celebração dos 15 anos de trajetória da empresa,

Ler Resumo O Vittude Summit 2026 marca uma guinada: a saúde mental no trabalho saiu da sensibilização e virou gestão estratégica. Não se

Está em uma semana agitada? Que tal uma receita nutritiva e cheia de sabor, que é rápida e fácil de fazer? A Quiche
O Sebrae-SP e a Prefeitura de São João do Pau D’Alho inauguraram oficialmente, na última sexta-feira (20), a unidade do Sebrae Aqui no município.
© 2025 Todos os direitos reservados a Handelsblatt – CNPJ 45.520.680/0001-02