Player Live
AO VIVO
20 de junho de 2026
O ajuste fino esquece. RAG vaza contexto. As hiperredes constroem o modelo que seu agente precisa sob demanda.

O ajuste fino esquece. RAG vaza contexto. As hiperredes constroem o modelo que seu agente precisa sob demanda.

As equipes empresariais continuam observando a mesma coisa acontecer. Um agente de IA demonstra lindamente, vai para a produção e para: ele funciona por um curto período, depois precisa de um ser humano para completar seu contexto e verificar sua produção, e a eficiência prometida é drenada para a supervisão. O agente fez o trabalho; você fez a observação. Essa é uma das razões pelas quais tantos agentes-pilotos nunca se transformam em sistemas de produção. O campo do outro lado dessa parede é aquele em que toda equipe quer acreditar: um agente que executa um longo trabalho sozinho, durante a noite, se necessário, e deixa uma pessoa para validar apenas os últimos 10%. Se isso é possível, surge um problema que a conversa de orquestração geralmente ignora. Quando a empresa de IA Chroma testou 18 modelos líderes, todos perderam precisão à medida que sua contribuição crescia, uma propriedade de como a atenção funciona, e não uma lacuna que um modelo mais forte fecha. Um agente que alimenta cada vez mais o seu negócio à medida que ele funciona não fica mais estável. Fica mais instável. Esta é a camada abaixo da corrida de orquestração. O roteamento, a execução durável e a observabilidade pressupõem que cada agente já seja competente o suficiente para coordenar. A questão mais profunda é quanto tempo um agente pode funcionar antes que um humano intervenha, e isso se resume a onde reside o conhecimento da sua empresa em relação ao modelo. Ambas as correções padrão deixam um ser humano informado. Por que ensinar um modelo para seu negócio mantém você informado Os modelos fronteiriços estão cada vez mais capazes e a lacuna não diminui, porque não se trata de um problema de capacidade. É sobre onde está o seu conhecimento em relação ao modelo, e as empresas têm duas maneiras de colocá-lo aí. O primeiro é o ajuste fino, que incorpora conhecimento aos pesos. Continua sujeito ao esquecimento catastrófico, um problema identificado na década de 1980 e ainda sem solução em 2026: ensinar algo novo a um modelo tende a desgastar o que ele já sabia. As equipes contornam isso isolando cada tarefa em seu próprio modelo ou adaptador ajustado, o que produz um amplo conjunto de modelos que aumenta os custos e as despesas gerais de governança. E um modelo afinado é um instantâneo, obsoleto no dia em que uma política muda, quando o ciclo de reconversão dispendioso e lento recomeça. A segunda é a aprendizagem contextual, que ignora o retreinamento, colocando as políticas relevantes no prompt em tempo de execução. É aqui que a podridão do contexto afeta. A recuperação restringe o que entra no prompt, mas uma falha na recuperação parece idêntica a uma resposta confiável, e tanto o custo quanto a latência aumentam com cada token adicionado. As duas falhas rimam. Com o ajuste fino, o modelo pode funcionar com confiança a partir da política do último trimestre. Com o aprendizado no contexto, ele pode trabalhar com segurança a partir de um detalhe perdido no meio de uma longa solicitação. De qualquer forma, a saída parece igualmente garantida, então você não pode dizer quais partes estão erradas sem verificar todas elas. É por isso que o humano nunca consegue sair. Algumas equipes geralmente executam ambos ao mesmo tempo, ajustando o conhecimento estável e recuperando o restante. Isso suaviza cada falha, mas não remove nenhuma delas: em qualquer saída, você ainda não pode ter certeza de que o modelo está atual e funcionando no contexto correto, então você ainda o verifica. Um terceiro caminho: gerar o modelo especializado sob demanda Uma terceira abordagem é passar da investigação para produtos iniciais. Em vez de treinar novamente um modelo ou preencher seu prompt, um gerador cria um modelo pequeno e específico para uma tarefa sob demanda a partir de suas políticas, no momento da inferência. O gerador é uma hiper-rede: uma rede cuja saída são os pesos de outra rede. A ideia foi batizada em 2016; aplicá-lo para produzir modelos de linguagem especializados a partir de textos ou documentos é recente e ativo. O Text-to-LoRA da Sakana AI, apresentado no ICML 2025, gera um adaptador de modelo a partir de uma descrição em linguagem simples em uma única passagem, e um sistema 2026 chamado SHINE chama a adaptação de hiperrede de uma nova fronteira promissora, precisamente porque evita tanto o custo de retreinamento do ajuste fino quanto os limites de contexto do prompt. O objetivo de gerar adaptadores, em vez de treiná-los e armazená-los, é reunir uma extensa biblioteca de LoRAs por tarefa em uma rede que possa produzi-los sob demanda, inclusive para tarefas que ela não viu. A parte elegante é como isso fecha o ciclo do problema acima: as equipes de adaptadores por tarefa construídas manualmente para evitar o esquecimento catastrófico são o mesmo objeto que uma hiperrede produz automaticamente. O zoológico modelo deixa de ser uma dor de cabeça de governança e passa a ser um resultado gerado. O argumento para ser pequeno por trás de tudo isso foi apresentado mais diretamente em um artigo de 2025 de pesquisadores da Nvidia: para as tarefas estreitas e repetitivas que preenchem os fluxos de trabalho dos agentes, modelos pequenos são capazes o suficiente e 10 a 30 vezes mais baratos de executar do que os generalistas de fronteira. A Nace.AI, uma empresa de Palo Alto que levantou uma rodada inicial de US$ 21,5 milhões em maio, é o exemplo comercial mais claro. Sua tecnologia central, um gerador que chama de MetaModel, produz adaptações de parâmetros para um modelo no momento da inferência das políticas de uma empresa, voltadas para trabalhos regulamentados: auditoria, compliance, avaliação de riscos. A empresa afirma que seus agentes cuidam da maior parte do fluxo de trabalho enquanto especialistas humanos validam o resultado, uma divisão que ela comercializa como 90/10. Como as três abordagens se comparam Afinação No contexto / RAG Modelo gerado por hiperrede Onde mora o conhecimento empresarial Nos pesos do modelo No prompt, reabasteça cada execução Em

Leia Mais »