Player Live
AO VIVO
22 de março de 2026
Scale AI lança Voice Showdown, o primeiro benchmark do mundo real para IA de voz – e os resultados são humilhantes para alguns modelos top

Scale AI lança Voice Showdown, o primeiro benchmark do mundo real para IA de voz – e os resultados são humilhantes para alguns modelos top

A IA de voz está se movendo mais rápido do que as ferramentas que usamos para medi-la. Todos os principais laboratórios de IA – OpenAI, Google DeepMind, Anthropic, xAI – estão correndo para lançar modelos de voz capazes de conversas naturais e em tempo real. Mas os parâmetros de referência utilizados para avaliar esses modelos ainda funcionam, em grande parte, com discurso sintético, comandos apenas em inglês e conjuntos de testes programados que têm pouca semelhança com a forma como as pessoas realmente falam. Scale AI, a startup de anotação de grandes dados cujo fundador foi contratado pela Meta no ano passado para liderar seu Laboratório de Superinteligência, ainda está forte e enfrentando o problema de frente: hoje lança o Voice Showdown, o que chama de a primeira arena global baseada em preferências projetada para avaliar a IA de voz através das lentes da interação humana real. Este produto oferece um valor estratégico único aos usuários: acesso gratuito aos principais modelos de fronteira do mundo. Por meio da plataforma ChatLab da Scale, os usuários podem interagir com modelos de alto nível – que normalmente exigem várias assinaturas de US$ 20 por mês – sem nenhum custo. Em troca, os usuários participam ocasionalmente de encontros cegos e frente a frente. "batalhas" para escolher qual dos dois principais modelos de voz anônimos oferece uma melhor experiência, fornecendo dados para o quadro de classificação de modelos de IA de voz mais autênticos e de preferência humana do setor. "Voice AI é realmente a fronteira mais rápida em IA no momento," disse Janie Gu, gerente de produto da Showdown at Scale AI. "Mas a forma como avaliamos os modelos de voz não acompanhou." Os resultados, extraídos de milhares de conversas espontâneas por voz em mais de 60 idiomas, revelam lacunas de capacidade que outros benchmarks têm consistentemente ignorado. Como funciona o Voice Showdown do Scale Voice Showdown é construído no ChatLab, a plataforma de bate-papo independente de modelo da Scale, onde os usuários podem interagir livremente com qualquer modelo de IA de fronteira que escolherem – gratuitamente – em um único aplicativo. A plataforma está disponível para a comunidade global da Scale de mais de 500.000 anotadores, dos quais cerca de 300.000 enviaram pelo menos um prompt. A Scale está abrindo a plataforma para uma lista de espera pública hoje. O mecanismo de avaliação é elegante em sua simplicidade: enquanto um usuário está tendo uma conversa de voz natural com um modelo, o sistema ocasionalmente – em menos de 5% de todos os comandos de voz – apresenta uma comparação cega lado a lado. O mesmo prompt é enviado para um segundo modelo anônimo, e o usuário escolhe a resposta de sua preferência. Este design resolve três problemas que afetam os benchmarks de voz existentes. Primeiro, cada prompt vem da fala humana real – com sotaques, ruído de fundo, frases incompletas e preenchimento de conversação – em vez de áudio sintetizado gerado a partir de texto. Em segundo lugar, a plataforma abrange mais de 60 idiomas em 6 continentes, com mais de um terço das batalhas ocorrendo em idiomas diferentes do inglês, incluindo espanhol, árabe, japonês, português, hindi e francês. Terceiro, como as batalhas ocorrem nas conversas diárias reais dos usuários, 81% das solicitações são conversacionais ou abertas – perguntas sem uma única resposta correta. Isso exclui a pontuação automatizada e faz da preferência humana o único sinal credível. O Voice Showdown atualmente executa dois modos de avaliação: Ditar (os usuários falam, os modelos respondem com texto) e Fala para Fala, ou S2S (Fala para Fala, os usuários falam, os modelos respondem). Um terceiro modo – Full Duplex, que captura conversas interrompíveis em tempo real – está em desenvolvimento. Votação alinhada por incentivos Um detalhe de design diferencia o Voice Showdown do Chatbot Arena (LM Arena), o benchmark de texto com o qual ele mais se assemelha. Na LM Arena, os críticos notaram que os usuários às vezes dão votos descartáveis, com pouca participação no resultado. O Voice Showdown aborda isso diretamente: depois que um usuário vota no modelo de sua preferência, o aplicativo o alterna para esse modelo pelo resto da conversa. Se você votou no GPT-4o Audio em vez do Gemini, agora está falando com o GPT-4o Audio. Esse alinhamento das consequências com as preferências desencoraja o voto casual ou desonesto. O sistema também controla confusões que podem corromper as comparações: as respostas de ambos os modelos começam a ser transmitidas simultaneamente (eliminando o preconceito de velocidade), o género da voz é correspondido em ambas as opções (eliminando o preconceito de preferência de género) e nenhum dos modelos é identificado pelo nome durante a votação. O novo ranking de Voice AI ao qual todo tomador de decisão empresarial deve prestar atenção Voice Showdown é lançado com 11 modelos de fronteira avaliados em 52 pares modelo-voz em 18 de março de 2026. Nem todos os modelos suportam ambos os modos de avaliação – a tabela de classificação Dictate inclui 8 modelos, enquanto S2S inclui 6. Ditar placar (Speech-In, Text-Out) Nesse modo, os usuários fornecem um prompt falado e avaliam duas respostas de texto lado a lado. Aqui estão as pontuações básicas: Gêmeos 3 Pró (1073) Gêmeos 3 Flash (1068) Áudio GPT-4o (1019) Pergunta 3 Omni (1000) Voxtral Pequeno (925) Gema 3n (918) GPT em tempo real (875) Phi-4 Multimodal (729) Observação: Gemini 3 Pro e Gemini 3 Flash estão estatisticamente empatados no topo da classificação. Tabela de classificação de fala para fala (S2S) Neste modo, os usuários falam com o modelo e avaliam duas respostas de áudio concorrentes. Também linhas de base: Áudio Flash Gêmeos 2.5 (1060) Áudio GPT-4o (1059) Voz Grok (1024) Pergunta 3 Omni (1000) GPT em tempo real (962) GPT em tempo real 1.5 (920) Observação: Gemini 2.5 Flash Audio e GPT-4o Audio estão estatisticamente empatados no topo da classificação nas avaliações iniciais. As classificações do Dictate são lideradas pelo Gemini 3 Pro e Gemini 3 Flash do Google, que estão estatisticamente empatados em primeiro lugar, com pontuações Elo

Leia Mais »