Player Live
AO VIVO
31 de maio de 2026
O modelo de memória do MeMo permite que as equipes atualizem seu LLM sem treiná-lo novamente – e o desempenho aumenta 26%

O modelo de memória do MeMo permite que as equipes atualizem seu LLM sem treiná-lo novamente – e o desempenho aumenta 26%

Permitir que os LLMs adquiram novos conhecimentos após a formação continua a ser um grande obstáculo para a IA empresarial – as soluções atuais são demasiado caras, demasiado lentas ou limitadas por limites de janela de contexto. MeMo, uma estrutura de pesquisadores de várias universidades, codifica novos conhecimentos em um modelo de memória dedicado menor que opera separadamente do LLM principal. A arquitetura modular funciona com modelos de código aberto e fechado e evita a complexidade dos pipelines RAG e do retreinamento completo do modelo. Experimentos mostram que o MeMo lida com consultas complexas de maneira confiável, mesmo quando os pipelines de recuperação são barulhentos. Evita o esquecimento catastrófico associado ao ajuste fino direto e fornece um caminho econômico para atualizações contínuas de conhecimento. O desafio de atualizar a memória LLM Grandes modelos de linguagem são congelados após o treinamento e seu conhecimento interno permanece estático até que sejam submetidos a atualizações computacionalmente massivas subsequentes. Atualmente, os desenvolvedores contam com três abordagens principais para integrar conhecimento externo em um LLM, cada uma com desvantagens distintas: Métodos não paramétricoscomo geração aumentada de recuperação (RAG) e aprendizagem em contextorecupere documentos relevantes de um banco de dados externo e insira-os diretamente no prompt do modelo. Embora populares, esses métodos são limitados pelos tamanhos das janelas de contexto. Como Armando Solar-Lezama, coautor do artigo, disse ao VentureBeat: “Os bancos de dados vetoriais têm um trabalho fundamentalmente difícil de codificar a semântica completa de um pedaço de texto em um único vetor e, em seguida, combinar esse vetor com uma consulta, mesmo quando a relevância do pedaço… só pode ser aparente no contexto de outros pedaços”. Os pesquisadores observam que a semelhança semântica dos embeddings muitas vezes não corresponde ao que a consulta do usuário realmente exige. O processamento de milhares de tokens recuperados também cria sobrecarga computacional substancial e latência de inferência. O mais problemático é que os sistemas RAG são altamente sensíveis ao ruído. Passagens irrelevantes ou mal recuperadas muitas vezes degradam a resposta final do modelo. Métodos paramétricoscomo o pré-treinamento contínuo ou o ajuste fino supervisionado, tentam internalizar novos conhecimentos diretamente nos pesos do LLM. Atualizar LLMs massivos e modernos é proibitivamente caro e normalmente impossível para modelos proprietários de código fechado escondidos atrás de APIs. O ajuste fino também pode causar esquecimento catastrófico. Forçar o modelo a se adaptar a novos dados corporativos muitas vezes desgasta suas capacidades de raciocínio e proteções de segurança anteriormente adquiridas. Métodos de memória latentecomo a compactação de contexto, oferecem um meio-termo. Eles comprimem o conhecimento em compactos "fichas flexíveis" ou representações que são adicionadas ao contexto do modelo durante a inferência. A falha fatal aqui é "acoplamento de representação." A memória compactada está estritamente ligada à arquitetura do modelo que a produziu; você não pode transferir uma memória latente treinada em um modelo de código aberto para um modelo de código fechado. Como funciona o MeMo A estrutura MeMo (Memória como Modelo) apresenta uma arquitetura modular com dois componentes separados. O modelo MEMORY é um modelo de linguagem pequeno treinado especificamente para codificar novos conhecimentos em seus parâmetros. O modelo EXECUTIVO é um LLM congelado e pronto para uso que funciona como mecanismo de raciocínio. Quando um usuário faz uma pergunta, o modelo EXECUTIVO trata o modelo MEMÓRIA como um oráculo externo, emitindo subconsultas direcionadas para reunir fatos e sintetizar esses fatos em uma resposta final. O princípio central do design que impulsiona o MeMo é o conceito de "reflexões." As reflexões são pares de perguntas e respostas (QA) direcionados, projetados para capturar todos os ângulos possíveis de um corpus de conhecimento. Em vez de forçar a IA a processar um enorme corpus de documentos não estruturados durante o treinamento, o MeMo usa um modelo GENERATOR para destilar o texto bruto em milhares de pares de controle de qualidade direcionados. O modelo MEMORY é então ajustado neste conjunto de dados para responder perguntas usando apenas seu conhecimento paramétrico, sem a necessidade de ler o contexto recuperado. No momento da inferência, a interação entre os dois modelos segue um protocolo estruturado de três estágios: 1. O modelo EXECUTIVO decompõe a consulta complexa de um usuário em um conjunto de subquestões atômicas. O modelo MEMÓRIA responde a cada uma de forma independente para estabelecer os fatos básicos. 2. Usando essas pistas iniciais, o modelo EXECUTIVO emite consultas de acompanhamento para restringir as entidades candidatas até convergir com segurança para um alvo específico. 3. Finalmente, o modelo EXECUTIVO consulta o modelo MEMÓRIA para apoiar fatos sobre aquela entidade alvo e sintetiza os trechos recuperados em uma resposta coesa. Essa arquitetura mescla os pontos fortes dos três paradigmas de memória de IA existentes, ao mesmo tempo que contorna suas armadilhas. Ele aproveita modelos de fronteira prontos para uso, mantendo o armazenamento de memória separado do raciocínio, garantindo compatibilidade com modelos de API abertos e fechados. Ele internaliza o conhecimento diretamente nos parâmetros, mas isola as atualizações em um modelo de MEMÓRIA menor e dedicado para proteger o mecanismo de raciocínio. Finalmente, ele cria um artefato de memória consultável que não está vinculado a nenhum modelo específico e pode ser usado com diferentes famílias LLM. Lidando com atualizações contínuas de conhecimento O gerenciamento da memória de uma IA requer atualizações contínuas à medida que as políticas da empresa mudam e novos relatórios são publicados. Normalmente, atualizar os parâmetros de um modelo requer treiná-lo novamente do zero nos dados antigos e novos combinados. À medida que a base de conhecimento cresce, este custo cumulativo de reciclagem torna-se incontrolável. Para lidar com atualizações contínuas de forma eficiente, o MeMo conta com uma técnica chamada "fusão de modelos." Em vez de uma fase massiva de reciclagem conjunta, o MeMo treina um novo modelo de MEMÓRIA independente exclusivamente nos documentos recém-adicionados. O sistema deriva um "vetor de tarefa" representando as alterações de parâmetros aprendidas com os novos dados. Essas atualizações são então mescladas matematicamente nos pesos do modelo MEMORY original. Essa abordagem reduz as horas de computação necessárias para manter o sistema atualizado,

Leia Mais »