
José Fernando Ogura/Agência de Notícias do Paraná Nova lei busca reduzir custos para as micro

Bruno Spada/Câmara dos Deputados Felipe Carreras durante a leitura do relatório O Grupo de Trabalho

Vinicius Loures / Câmara dos Deputados Deputado Delegado Paulo Bilynskyj, relator do projeto de lei

Vinicius Loures / Câmara dos Deputados Rogéria Santos: projeto é resposta ao aumento de crianças

No último Natal, minha mãe me deu um presente que me desmontou por dentro. Era

Na região, o evento ocorreu em dez municípios — Aguaí (139), Espírito Santo do Pinhal (24),




À medida que os Large Language Models (LLMs) expandem suas janelas de contexto para processar documentos massivos e conversas complexas, eles se deparam com uma realidade de hardware brutal conhecida como "Gargalo do cache de valor-chave (KV)." Cada palavra que um modelo processa deve ser armazenada como um vetor de alta dimensão na memória de alta velocidade. Para tarefas de formato longo, isso "folha de dicas digitais" aumenta rapidamente, devorando o sistema de memória de acesso aleatório de vídeo (VRAM) da unidade de processamento gráfico (GPU) usado durante a inferência e diminuindo rapidamente o desempenho do modelo ao longo do tempo. Mas não tenha medo, o Google Research está aqui: ontem, a unidade do gigante das buscas lançou seu conjunto de algoritmos TurboQuant – uma inovação apenas de software que fornece o modelo matemático para compactação extrema de cache KV, permitindo uma redução média de 6x na quantidade de memória KV um determinado modelo usa, e Aumento de desempenho de 8x em logits de atenção de computação, o que poderia reduzir os custos para as empresas que o implementam em seus modelos em mais de 50%. Os algoritmos teoricamente fundamentados e os documentos de pesquisa associados estão agora disponíveis publicamente gratuitamente, inclusive para uso empresarial, oferecendo uma solução sem treinamento para reduzir o tamanho do modelo sem sacrificar a inteligência. A chegada do TurboQuant é o culminar de um arco de investigação plurianual que começou em 2024. Embora as estruturas matemáticas subjacentes – incluindo PolarQuant e Quantized Johnson-Lindenstrauss (QJL) – tenham sido documentadas no início de 2025, a sua revelação formal hoje marca uma transição da teoria académica para a realidade da produção em grande escala. O momento é estratégico, coincidindo com as próximas apresentações dessas descobertas nas próximas conferências Conferência Internacional sobre Representações de Aprendizagem (ICLR 2026) no Rio de Janeiro, Brasil, e Conferência Anual sobre Inteligência Artificial e Estatística (AISTATS 2026) em Tânger, Marrocos. Ao lançar essas metodologias sob uma estrutura de pesquisa aberta, o Google está fornecendo o essencial "encanamento" para o florescente "IA Agente" era: a necessidade de memória vetorizada massiva, eficiente e pesquisável que possa finalmente ser executada no hardware que os usuários já possuem. Acredita-se que já tenha um efeito no mercado de ações, reduzindo o preço dos fornecedores de memória, uma vez que os comerciantes olham para o lançamento como um sinal de que será necessária menos memória (talvez incorreto, dado o Paradoxo de Jevons). A Arquitetura da Memória: Resolvendo o Imposto sobre Eficiência Para entender por que o TurboQuant é importante, é preciso primeiro entender o "imposto de memória" da IA moderna. A quantização vetorial tradicional tem sido historicamente uma "vazando" processo. Quando decimais de alta precisão são compactados em números inteiros simples, o resultado "erro de quantização" acumula, eventualmente fazendo com que os modelos tenham alucinações ou percam a coerência semântica. Além disso, a maioria dos métodos existentes exige "constantes de quantização"—metadados armazenados junto com os bits compactados para informar ao modelo como descompactá-los. Em muitos casos, essas constantes adicionam tanta sobrecarga – às vezes de 1 a 2 bits por número – que anulam totalmente os ganhos de compactação. O TurboQuant resolve esse paradoxo por meio de um escudo matemático de dois estágios. O primeiro estágio utiliza o PolarQuant, que reimagina a forma como mapeamos o espaço de alta dimensão. Em vez de usar coordenadas cartesianas padrão (X, Y, Z), o PolarQuant converte vetores em coordenadas polares que consistem em um raio e um conjunto de ângulos. A inovação está na geometria: após uma rotação aleatória, a distribuição destes ângulos torna-se altamente previsível e concentrada. Porque o "forma" dos dados agora é conhecido, o sistema não precisa mais armazenar constantes de normalização caras para cada bloco de dados. Ele simplesmente mapeia os dados em uma grade circular fixa, eliminando a sobrecarga que os métodos tradicionais devem suportar. O segundo estágio atua como um verificador de erros matemáticos. Mesmo com a eficiência do PolarQuant, permanece uma quantidade residual de erro. O TurboQuant aplica uma transformação Johnson-Lindenstrauss (QJL) quantizada de 1 bit a esses dados restantes. Ao reduzir cada número de erro a um simples bit de sinal (+1 ou -1), QJL serve como um estimador de polarização zero. Isso garante que quando o modelo calcula um "pontuação de atenção"—o processo vital de decidir quais palavras em um prompt são mais relevantes—a versão compactada permanece estatisticamente idêntica ao original de alta precisão. Benchmarks de desempenho e confiabilidade no mundo real O verdadeiro teste de qualquer algoritmo de compressão é o "Agulha no palheiro" benchmark, que avalia se uma IA pode encontrar uma única frase específica escondida em 100.000 palavras. Em testes em modelos de código aberto como Llama-3.1-8B e Mistral-7B, o TurboQuant obteve pontuações de recall perfeitas, refletindo o desempenho de modelos não compactados enquanto reduzindo o consumo de memória cache KV por um fator de pelo menos 6x. Esse "neutralidade de qualidade" é raro no mundo da quantização extrema, onde sistemas de 3 bits geralmente sofrem degradação lógica significativa. Além dos chatbots, o TurboQuant é transformador para pesquisas de alta dimensão. Os motores de busca modernos dependem cada vez mais de "pesquisa semântica," comparar os significados de bilhões de vetores em vez de apenas combinar palavras-chave. O TurboQuant atinge consistentemente taxas de recall superiores em comparação com métodos de última geração existentes, como RabbiQ e Quantização de Produto (PQ), ao mesmo tempo que requer praticamente zero tempo de indexação. Isso o torna um candidato ideal para aplicações em tempo real, onde os dados são constantemente adicionados a um banco de dados e devem ser pesquisáveis imediatamente. Além disso, em hardware como os aceleradores NVIDIA H100, a implementação de 4 bits do TurboQuant alcançou um aumento de desempenho de 8x nos registros de atenção computacional, uma aceleração crítica para implantações no mundo real. Reação extasiada da comunidade A reação em X, obtida através de uma pesquisa Grok, incluiu uma mistura de admiração técnica e experimentação prática imediata. O anúncio original do @GoogleResearch gerou um envolvimento massivo, com mais de 7,7 milhões

A OpenAI está fechando o Sora, seu aplicativo independente de geração de vídeo de IA e rede social, e a disponibilidade para os

Look, we've spent the last 18 months building production AI systems, and we'll tell you what keeps us up at night — and

Não muito tempo atrás, a ideia de ser um “generalista” no local de trabalho tinha uma reputação mista. O estereótipo era o “pau

A IA de voz está se movendo mais rápido do que as ferramentas que usamos para medi-la. Todos os principais laboratórios de IA

Os grandes modelos de linguagem estão a atingir limites em domínios que exigem uma compreensão do mundo físico – desde a robótica à

O futuro da IA não é apenas agente; é uma personalização profunda. Em vez de simples sistemas de recomendação que correlacionam o comportamento

Nos últimos anos, a startup chinesa de IA MiniMax tornou-se uma das mais interessantes no concorrido mercado global de IA, conquistando uma reputação

A era da IA generativa começou para a maioria das pessoas com o lançamento do ChatGPT da OpenAI no final de 2022, mas

A liderança indígena Luciene Kujaesage Kayabi vem se consolidando como uma das vozes estratégicas na construção de um novo modelo de desenvolvimento que
Adições na biblioteca são sempre muito bem-vindas, não é mesmo? Se você é do time que acompanha o Voxel para jogar coisa nova sem gastar

O Wyndham Garden São Paulo Convention Nortel e o Espaço de Eventos Immensità, localizados no maior polo de eventos da América Latina, encerrou

São Paulo ganha, neste início de temporada, uma nova experiência gastronômica no coração de Moema. O Yvá Gastronomia, restaurante anexo ao Wyndham São

Tradicionalmente associado ao turismo de lazer, o Carnaval também tem se consolidado como uma janela estratégica para hotéis corporativos que sabem explorar oportunidades

A primeira semana começa com a chance de ganhar até quatro noites grátis, e todas as quartas-feiras novos benefícios serão revelados para os

A primeira semana começa com a chance de ganhar até quatro noites grátis, e todas as quartas-feiras novos benefícios serão revelados para os

A primeira semana começa com a chance de ganhar até quatro noites grátis, e todas as quartas-feiras novos benefícios serão revelados para os
Projetos socioambientais podem ser inscritos até 31 de março; iniciativa já reúne participantes de diversas regiões do Brasil e reforça protagonismo nacional na

Por Vicente Cárdenas, líder de Etiquetagem na Origem para a América Latina da Sensormatic Solutions. Em um mercado dinâmico como o do varejo

Reconhecimento destaca organizações comprometidas com a integridade nos negócios por meio de programas robustos de ética, conformidade e governança A Johnson Controls (NYSE:

Terceiro colocado no ranking dos estados com mais inadimplentes no Brasil, o que equivale a 58,2% da população, o Amazonas contava com pouco
© 2025 Todos os direitos reservados a Handelsblatt – CNPJ 45.520.680/0001-02