A inteligência dos modelos de IA não é o que está bloqueando as implantações empresariais. Em primeiro lugar, é a incapacidade de definir e medir a qualidade.
É aí que os juízes de IA desempenham agora um papel cada vez mais importante. Na avaliação de IA, um "juiz" é um sistema de IA que pontua resultados de outro sistema de IA.
O Judge Builder é a estrutura da Databricks para a criação de juízes e foi implantado pela primeira vez como parte do projeto da empresa. Agente Tijolos tecnologia no início deste ano. A estrutura evoluiu significativamente desde o seu lançamento inicial em resposta ao feedback direto dos usuários e às implantações.
As primeiras versões focavam na implementação técnica, mas o feedback dos clientes revelou que o verdadeiro gargalo era o alinhamento organizacional. A Databricks agora oferece um processo de workshop estruturado que orienta as equipes em três desafios principais: fazer com que as partes interessadas cheguem a um acordo sobre critérios de qualidade, capturar experiência no domínio de especialistas limitados no assunto e implantar sistemas de avaliação em escala.
"A inteligência do modelo normalmente não é o gargalo, os modelos são realmente inteligentes," Jonathan Frankle, cientista-chefe de IA da Databricks, disse ao VentureBeat em um briefing exclusivo. "Em vez disso, trata-se realmente de perguntar: como fazemos com que os modelos façam o que queremos e como sabemos se eles fizeram o que queríamos?"
O ‘problema Ouroboros’ da avaliação de IA
Judge Builder aborda o que Pallavi Koppol, um cientista pesquisador do Databricks que liderou o desenvolvimento, chama de "Problema de Ouroboros." Um Ouroboros é um símbolo antigo que representa uma cobra comendo o próprio rabo.
Usar sistemas de IA para avaliar sistemas de IA cria um desafio de validação circular.
"Você quer que um juiz veja se o seu sistema é bom, se o seu sistema de IA é bom, mas então o seu juiz também é um sistema de IA," Kopol explicou. "E agora você está dizendo, bem, como posso saber se esse juiz é bom?"
A solução é medir "distância da verdade terrestre do especialista humano" como a principal função de pontuação. Ao minimizar a lacuna entre a forma como um juiz de IA avalia os resultados e como os especialistas do domínio os avaliariam, as organizações podem confiar nesses juízes como representantes escaláveis para avaliação humana.
Esta abordagem difere fundamentalmente da tradicional sistemas de guarda-corpo ou avaliações de métrica única. Em vez de perguntar se um resultado de IA foi aprovado ou reprovado em uma verificação de qualidade genérica, o Judge Builder cria critérios de avaliação altamente específicos, adaptados à experiência de domínio e aos requisitos de negócios de cada organização.
A implementação técnica também o diferencia. O Judge Builder integra-se ao MLflow do Databricks e otimização imediata ferramentas e pode funcionar com qualquer modelo subjacente. As equipes podem controlar a versão de seus juízes, acompanhar o desempenho ao longo do tempo e implantar vários juízes simultaneamente em diferentes dimensões de qualidade.
Lições aprendidas: Construindo juízes que realmente funcionam
O trabalho da Databricks com clientes empresariais revelou três lições críticas que se aplicam a qualquer pessoa que esteja construindo juízes de IA.
Lição um: seus especialistas não concordam tanto quanto você pensa. Quando a qualidade é subjetiva, as organizações descobrem que até mesmo os seus próprios especialistas no assunto discordam sobre o que constitui um resultado aceitável. Uma resposta do atendimento ao cliente pode ser factualmente correta, mas usar um tom inadequado. Um resumo financeiro pode ser abrangente, mas demasiado técnico para o público-alvo.
"Uma das maiores lições de todo este processo é que todos os problemas se tornam problemas de pessoas," Frankle disse. "A parte mais difícil é tirar uma ideia do cérebro de uma pessoa e transformá-la em algo explícito. E a parte mais difícil é que as empresas não são um cérebro, mas muitos cérebros."
A correção é a anotação em lote com verificações de confiabilidade entre avaliadores. As equipes anotam exemplos em pequenos grupos e depois medem as pontuações de concordância antes de prosseguir. Isso detecta o desalinhamento precocemente. Num caso, três especialistas deram classificações de 1, 5 e neutras para o mesmo resultado antes da discussão revelar que estavam a interpretar os critérios de avaliação de forma diferente.
As empresas que utilizam esta abordagem alcançam pontuações de confiabilidade entre avaliadores de até 0,6, em comparação com pontuações típicas de 0,3 de serviços de anotação externos. Maior concordância se traduz diretamente em melhor desempenho do juiz porque os dados de treinamento contêm menos ruído.
Lição dois: Divida critérios vagos em juízes específicos. Em vez de um juiz avaliar se uma resposta é "relevante, factual e conciso," criar três juízes separados. Cada um visa um aspecto de qualidade específico. Essa granularidade é importante porque uma falha "qualidade geral" a pontuação revela que algo está errado, mas não o que consertar.
Os melhores resultados advêm da combinação de requisitos de cima para baixo, tais como restrições regulamentares e prioridades das partes interessadas, com a descoberta de baixo para cima dos padrões de falha observados. Um cliente criou um juiz de cima para baixo para a correção, mas descobriu, por meio da análise de dados, que as respostas corretas quase sempre citavam os dois primeiros resultados de recuperação. Esse insight tornou-se um novo juiz favorável à produção, que poderia representar a correção sem exigir rótulos de verdade.
Lição três: você precisa de menos exemplos do que pensa. As equipes podem criar juízes robustos a partir de apenas 20 a 30 exemplos bem escolhidos. A chave é selecionar casos extremos que expõem divergências, em vez de exemplos óbvios em que todos concordam.
"Conseguimos executar esse processo com algumas equipes em apenas três horas, então não demora muito para começar a conseguir um bom juiz," Kopol disse.
Resultados de produção: de pilotos a implantações de sete dígitos
Frankle compartilhou três métricas que o Databricks usa para medir o sucesso do Judge Builder: se os clientes desejam usá-lo novamente, se aumentam os gastos com IA e se progridem ainda mais em sua jornada de IA.
Na primeira métrica, um cliente criou mais de uma dúzia de juízes após o workshop inicial. "Este cliente fez mais de uma dúzia de juízes depois que os orientamos sobre como fazer isso de maneira rigorosa pela primeira vez com esta estrutura," Frankle disse. "Eles realmente foram à cidade com os juízes e agora estão medindo tudo."
Para a segunda métrica, o impacto nos negócios é claro. "Vários clientes passaram por este workshop e gastaram sete dígitos em GenAI na Databricks de uma forma que não aconteciam antes," Frankle disse.
A terceira métrica revela o valor estratégico do Judge Builder. Os clientes que antes hesitavam em usar técnicas avançadas, como o aprendizado por reforço, agora se sentem confiantes em implementá-las, pois podem medir se as melhorias realmente ocorreram.
"Há clientes que fizeram coisas muito avançadas depois de terem tido esses juízes onde antes estavam relutantes em fazê-lo," Frankle disse. "Eles deixaram de fazer um pouco de engenharia imediata e passaram a fazer aprendizado por reforço conosco. Por que gastar dinheiro em aprendizagem por reforço e por que gastar energia em aprendizagem por reforço se você não sabe se isso realmente fez diferença?"
O que as empresas devem fazer agora
As equipes que movem com sucesso a IA do piloto para a produção tratam os juízes não como artefatos únicos, mas como ativos em evolução que crescem com seus sistemas.
Databricks recomenda três etapas práticas. Primeiro, concentre-se em juízes de alto impacto, identificando um requisito regulatório crítico mais um modo de falha observado. Estes se tornam seu portfólio inicial de juízes.
Em segundo lugar, crie fluxos de trabalho leves com especialistas no assunto. Algumas horas revisando 20-30 casos extremos fornecem calibração suficiente para a maioria dos juízes. Use anotações em lote e verificações de confiabilidade entre avaliadores para eliminar o ruído de seus dados.
Terceiro, agende revisões regulares dos juízes usando dados de produção. Novos modos de falha surgirão à medida que o seu sistema evolui. Seu portfólio de juízes deve evoluir com eles.
"Um juiz é uma forma de avaliar um modelo, é também uma forma de criar barreiras de proteção, é também uma forma de ter uma métrica com a qual você pode fazer otimização imediata e também é uma forma de ter uma métrica com a qual você pode fazer aprendizado por reforço," Frankle disse. "Depois de ter um juiz que você sabe que representa seu gosto humano de uma forma empírica que você pode consultar o quanto quiser, você pode usá-lo de 10.000 maneiras diferentes para medir ou melhorar seus agentes."
Fonte ==> Cyberseo