
Vinicius Loures/Câmara dos Deputados Ricardo Ayres, relator do projeto A Comissão de Viação e Transportes

Vinicius Loures/Câmara dos Deputados Aureo Ribeiro, relator da proposta A Comissão de Defesa do Consumidor

Renato Araújo / Câmara dos Deputados Comissão de Constituição e Justiça durante reunião O relator

Marina Ramos / Câmara dos Deputados Motta: “PNE aponta para um futuro com mais oportunidade

Seu colega de trabalho é cronicamente egoísta, não se solidariza com o restante da equipe

O evento, realizado na Unesp Câmpus de Ilha Solteira, contou com duas turmas ao longo

As diretrizes padrão para a construção de grandes modelos de linguagem (LLMs) otimizam apenas os custos de treinamento e ignoram os custos de inferência. Isto representa um desafio para aplicações do mundo real que utilizam técnicas de escala de tempo de inferência para aumentar a precisão das respostas do modelo, como extrair múltiplas amostras de raciocínio de um modelo na implantação. Para preencher essa lacuna, pesquisadores da Universidade de Wisconsin-Madison e da Universidade de Stanford introduziram o Train-to-Test (T2) leis de escalabilidade, uma estrutura que otimiza conjuntamente o tamanho dos parâmetros de um modelo, seu volume de dados de treinamento e o número de amostras de inferência em tempo de teste. Na prática, sua abordagem prova que é ideal para a computação treinar modelos substancialmente menores com muito mais dados do que as regras tradicionais prescrevem e, em seguida, usar a sobrecarga computacional salva para gerar múltiplas amostras repetidas na inferência. Para desenvolvedores de aplicativos empresariais de IA que estão treinando seus próprios modelos, esta pesquisa fornece um modelo comprovado para maximizar o retorno do investimento. Mostra que o raciocínio da IA não exige necessariamente gastos enormes em modelos de fronteira. Em vez disso, modelos menores podem produzir um desempenho mais forte em tarefas complexas, ao mesmo tempo que mantêm os custos de inferência por consulta gerenciáveis dentro dos orçamentos de implantação do mundo real. Leis de escala conflitantes As leis de escala são uma parte importante do desenvolvimento de grandes modelos de linguagem. As leis de escalabilidade pré-treinamento determinam a melhor maneira de alocar computação durante a criação do modelo, enquanto leis de escala de tempo de teste orientar como alocar computação durante a implantação, como deixar o modelo “pensar mais” ou gerar vários exemplos de raciocínio para resolver problemas complexos. O problema é que estas leis de escala foram desenvolvidas de forma completamente independente umas das outras, apesar de estarem fundamentalmente interligadas. O tamanho dos parâmetros de um modelo e a duração do treinamento determinam diretamente a qualidade e o custo por consulta de suas amostras de inferência. Atualmente, o padrão ouro da indústria para pré-treinamento é o Regra da chinchilaque sugere uma proporção ideal de computação de aproximadamente 20 tokens de treinamento para cada parâmetro do modelo. No entanto, os criadores de famílias modernas de modelos de IA, como Llama, Gemma e Qwen, quebram regularmente esta regra ao treinarem intencionalmente os seus modelos mais pequenos em grandes quantidades de dados. Como Nicholas Roberts, coautor do artigo, disse ao VentureBeat, a abordagem tradicional falha ao construir fluxos de trabalho de agentes complexos: "Na minha opinião, a pilha de inferência falha quando cada chamada de inferência individual é cara. Este é o caso quando os modelos são grandes e é necessário fazer muitas amostragens repetidas." Em vez de depender de modelos massivos, os desenvolvedores podem usar modelos compactos sobretreinados para executar essa amostragem repetida por uma fração do custo. Mas como as leis de escalonamento de treinamento e tempo de teste são examinadas isoladamente, não existe uma estrutura rigorosa para calcular o quanto um modelo deve ser treinado em excesso com base em quantas amostras de raciocínio ele precisará gerar durante a implantação. Conseqüentemente, não existia anteriormente nenhuma fórmula que otimizasse conjuntamente o tamanho do modelo, o volume de dados de treinamento e os orçamentos de inferência em tempo de teste. A razão pela qual esta estrutura é difícil de formular é que o pré-treinamento e o escalonamento do tempo de teste falam duas linguagens matemáticas diferentes. Durante o pré-treinamento, o desempenho de um modelo é medido usando “perda”, uma métrica suave e contínua que rastreia erros de previsão à medida que o modelo aprende. No momento do teste, os desenvolvedores usam métricas downstream do mundo real para avaliar as capacidades de raciocínio de um modelo, como pass@k, que mede a probabilidade de um modelo produzir pelo menos uma resposta correta em k tentativas repetidas e independentes. Leis de escalonamento de treinamento para teste Para resolver a desconexão entre treinamento e implantação, os pesquisadores introduzem Train-to-Test (T2) leis de escala. Em alto nível, esta estrutura prevê o desempenho de raciocínio de um modelo tratando três variáveis como uma única equação: o tamanho do modelo (N), o volume de tokens de treinamento com os quais ele aprende (D) e o número de amostras de raciocínio que ele gera durante a inferência (k). T2 combina orçamentos de pré-treinamento e inferência em uma fórmula de otimização que leva em conta tanto o custo da linha de base para treinar o modelo (6ND) quanto o custo composto para consultá-lo repetidamente na inferência (2Nk). Os pesquisadores tentaram diferentes abordagens de modelagem: modelar a perda pré-treinamento ou o desempenho no tempo de teste (pass@k) como funções de N, D e k. A primeira abordagem pega a equação matemática familiar usada para o escalonamento da Chinchilla (que calcula o erro ou perda de previsão de um modelo) e a modifica diretamente adicionando uma nova variável que leva em conta o número de amostras repetidas no tempo de teste (k). Isso permite que os desenvolvedores vejam como o aumento da computação de inferência reduz a taxa de erro geral do modelo. A segunda abordagem modela diretamente a precisão pass@k downstream. Ele informa aos desenvolvedores a probabilidade de seu aplicativo resolver um problema, dado um orçamento de computação específico. Mas as empresas deveriam usar esta estrutura para todas as aplicações? Roberts esclarece que esta abordagem é altamente especializada. "Imagino que você não veria tantos benefícios em aplicativos com muito conhecimento, como modelos de bate-papo," ele disse. Em vez de, "T2 é adaptado para aplicativos de raciocínio pesado, como codificação, onde normalmente você usaria amostragem repetida como método de escalonamento de tempo de teste." O que isso significa para os desenvolvedores Para validar o T2 leis de escala, os pesquisadores construíram um extenso banco de testes com mais de 100 modelos de linguagem, variando de 5 milhões a 901 milhões de parâmetros. Eles treinaram do zero 21 novos postos de controle com excesso de treinamento para testar se

Ouça o artigo 5 minutos Este áudio é gerado automaticamente. Por favor, deixe-nos saber se você tiver comentários. A Modelo está aprofundando o

Salesforce on Wednesday unveiled the most ambitious architectural transformation in its 27-year history, introducing "Headless 360" — a sweeping initiative that exposes every

Especialista que mapeou mais de 1000 jornadas de usuários internacionais explica a ciência por trás das decisões que você toma sem pensar Você
Especialista que mapeou mais de 1000 jornadas de usuários internacionais explica a ciência por trás das decisões que você toma sem pensar Você
Especialista que mapeou mais de 1000 jornadas de usuários internacionais explica a ciência por trás das decisões que você toma sem pensar Você

Ouça o artigo 4 minutos Este áudio é gerado automaticamente. Por favor, deixe-nos saber se você tiver comentários. O Publicis Groupe viu a

A Microsoft atribuiu CVE-2026-21520, uma vulnerabilidade de injeção indireta de prompt CVSS 7.5, ao Copilot Studio. A Capsule Security descobriu a falha, coordenou

Ouça o artigo 3 minutos Este áudio é gerado automaticamente. Por favor, deixe-nos saber se você tiver comentários. O Chili’s Grill & Bar

A plataforma Steam, da Valve, recebe centenas de novos jogos semanalmente e pode ser difícil dar conta de tudo que fica disponível para

Luxo silencioso, design biofílico e experiência de vida redefinem o mercado imobiliário premium O conceito de exclusividade no mercado imobiliário de alto padrão

Abordagem individualizada se consolida como alternativa aos métodos genéricos em um cenário de excesso de informação Em um momento em que o acesso

Mariléia Martins durante a Confraria dos Palcos, onde foi reconhecida por sua participação e reforçou seu posicionamento em comunicação estratégica e autoridade profissional

Vinicius Loures/Câmara dos Deputados Ricardo Ayres, relator do projeto A Comissão de Viação e Transportes da Câmara dos Deputados aprovou projeto de lei

Das Américas à África, decisões recentes mostram como os sistemas regionais vêm redefinindo a proteção internacional dos direitos humanos Por Dra. Lívia Pelli

Sob o comando de Fábio Salomon, programa transforma entrevistas em conteúdo de alto valor sobre liderança, negócios e crescimento profissional Em um cenário

Em um cenário marcado pela comparação constante nas redes sociais e pela busca por validação digital, cresce o movimento de mulheres que têm

Muita gente ainda acredita que empreender em casa é sinônimo de pequeno. Eu penso exatamente o contrário. Pequeno não é começar de casa.

Empreendedor de Goiânia aposta no uso estratégico de vídeos feitos com celular para fortalecer a presença digital de empresários A crescente demanda por

Não existe mágica. Mas a fórmula para gerar negócios por indicação já é conhecida e poucos aplicam. Setenta por cento dos empresários brasileiros

A 20ª edição do SAHIC Latin America & The Caribbean – Hotel and Tourism Investment Forum entrou para a história ao registrar um
© 2025 Todos os direitos reservados a Handelsblatt