Player Live
AO VIVO
18 de abril de 2026
Explicação do dimensionamento do treinamento para teste: como otimizar seu orçamento de computação de IA de ponta a ponta para inferência

Explicação do dimensionamento do treinamento para teste: como otimizar seu orçamento de computação de IA de ponta a ponta para inferência

As diretrizes padrão para a construção de grandes modelos de linguagem (LLMs) otimizam apenas os custos de treinamento e ignoram os custos de inferência. Isto representa um desafio para aplicações do mundo real que utilizam técnicas de escala de tempo de inferência para aumentar a precisão das respostas do modelo, como extrair múltiplas amostras de raciocínio de um modelo na implantação. Para preencher essa lacuna, pesquisadores da Universidade de Wisconsin-Madison e da Universidade de Stanford introduziram o Train-to-Test (T2) leis de escalabilidade, uma estrutura que otimiza conjuntamente o tamanho dos parâmetros de um modelo, seu volume de dados de treinamento e o número de amostras de inferência em tempo de teste. Na prática, sua abordagem prova que é ideal para a computação treinar modelos substancialmente menores com muito mais dados do que as regras tradicionais prescrevem e, em seguida, usar a sobrecarga computacional salva para gerar múltiplas amostras repetidas na inferência. Para desenvolvedores de aplicativos empresariais de IA que estão treinando seus próprios modelos, esta pesquisa fornece um modelo comprovado para maximizar o retorno do investimento. Mostra que o raciocínio da IA ​​não exige necessariamente gastos enormes em modelos de fronteira. Em vez disso, modelos menores podem produzir um desempenho mais forte em tarefas complexas, ao mesmo tempo que mantêm os custos de inferência por consulta gerenciáveis ​​dentro dos orçamentos de implantação do mundo real. Leis de escala conflitantes As leis de escala são uma parte importante do desenvolvimento de grandes modelos de linguagem. As leis de escalabilidade pré-treinamento determinam a melhor maneira de alocar computação durante a criação do modelo, enquanto leis de escala de tempo de teste orientar como alocar computação durante a implantação, como deixar o modelo “pensar mais” ou gerar vários exemplos de raciocínio para resolver problemas complexos. O problema é que estas leis de escala foram desenvolvidas de forma completamente independente umas das outras, apesar de estarem fundamentalmente interligadas. O tamanho dos parâmetros de um modelo e a duração do treinamento determinam diretamente a qualidade e o custo por consulta de suas amostras de inferência. Atualmente, o padrão ouro da indústria para pré-treinamento é o Regra da chinchilaque sugere uma proporção ideal de computação de aproximadamente 20 tokens de treinamento para cada parâmetro do modelo. No entanto, os criadores de famílias modernas de modelos de IA, como Llama, Gemma e Qwen, quebram regularmente esta regra ao treinarem intencionalmente os seus modelos mais pequenos em grandes quantidades de dados. Como Nicholas Roberts, coautor do artigo, disse ao VentureBeat, a abordagem tradicional falha ao construir fluxos de trabalho de agentes complexos: "Na minha opinião, a pilha de inferência falha quando cada chamada de inferência individual é cara. Este é o caso quando os modelos são grandes e é necessário fazer muitas amostragens repetidas." Em vez de depender de modelos massivos, os desenvolvedores podem usar modelos compactos sobretreinados para executar essa amostragem repetida por uma fração do custo. Mas como as leis de escalonamento de treinamento e tempo de teste são examinadas isoladamente, não existe uma estrutura rigorosa para calcular o quanto um modelo deve ser treinado em excesso com base em quantas amostras de raciocínio ele precisará gerar durante a implantação. Conseqüentemente, não existia anteriormente nenhuma fórmula que otimizasse conjuntamente o tamanho do modelo, o volume de dados de treinamento e os orçamentos de inferência em tempo de teste. A razão pela qual esta estrutura é difícil de formular é que o pré-treinamento e o escalonamento do tempo de teste falam duas linguagens matemáticas diferentes. Durante o pré-treinamento, o desempenho de um modelo é medido usando “perda”, uma métrica suave e contínua que rastreia erros de previsão à medida que o modelo aprende. No momento do teste, os desenvolvedores usam métricas downstream do mundo real para avaliar as capacidades de raciocínio de um modelo, como pass@k, que mede a probabilidade de um modelo produzir pelo menos uma resposta correta em k tentativas repetidas e independentes. Leis de escalonamento de treinamento para teste Para resolver a desconexão entre treinamento e implantação, os pesquisadores introduzem Train-to-Test (T2) leis de escala. Em alto nível, esta estrutura prevê o desempenho de raciocínio de um modelo tratando três variáveis ​​como uma única equação: o tamanho do modelo (N), o volume de tokens de treinamento com os quais ele aprende (D) e o número de amostras de raciocínio que ele gera durante a inferência (k). T2 combina orçamentos de pré-treinamento e inferência em uma fórmula de otimização que leva em conta tanto o custo da linha de base para treinar o modelo (6ND) quanto o custo composto para consultá-lo repetidamente na inferência (2Nk). Os pesquisadores tentaram diferentes abordagens de modelagem: modelar a perda pré-treinamento ou o desempenho no tempo de teste (pass@k) como funções de N, D e k. A primeira abordagem pega a equação matemática familiar usada para o escalonamento da Chinchilla (que calcula o erro ou perda de previsão de um modelo) e a modifica diretamente adicionando uma nova variável que leva em conta o número de amostras repetidas no tempo de teste (k). Isso permite que os desenvolvedores vejam como o aumento da computação de inferência reduz a taxa de erro geral do modelo. A segunda abordagem modela diretamente a precisão pass@k downstream. Ele informa aos desenvolvedores a probabilidade de seu aplicativo resolver um problema, dado um orçamento de computação específico. Mas as empresas deveriam usar esta estrutura para todas as aplicações? Roberts esclarece que esta abordagem é altamente especializada. "Imagino que você não veria tantos benefícios em aplicativos com muito conhecimento, como modelos de bate-papo," ele disse. Em vez de, "T2 é adaptado para aplicativos de raciocínio pesado, como codificação, onde normalmente você usaria amostragem repetida como método de escalonamento de tempo de teste." O que isso significa para os desenvolvedores Para validar o T2 leis de escala, os pesquisadores construíram um extenso banco de testes com mais de 100 modelos de linguagem, variando de 5 milhões a 901 milhões de parâmetros. Eles treinaram do zero 21 novos postos de controle com excesso de treinamento para testar se

Leia Mais »