
Kayo Magalhães / Câmara dos Deputados Deputado Sidney Leite, relator da proposta A Comissão de

Vinicius Loures / Câmara dos Deputados Profª Luciene: continuidade lógica das políticas de inclusão A

Kayo Magalhães/Câmara dos Deputados Deputada Coronel Fernanda, relatora da PEC na CCJ A Comissão de

Vinicius Loures/Câmara dos Deputados Busato: medidas aumentam a proteção das vítimas A Comissão de Constituição

(Ambev/Reprodução) Continua após publicidade A Ambev acaba de abrir as inscrições para o seu Programa

A palestra de abertura foi com Murilo Silva, que atua há mais de 30 anos

A IA de voz está se movendo mais rápido do que as ferramentas que usamos para medi-la. Todos os principais laboratórios de IA – OpenAI, Google DeepMind, Anthropic, xAI – estão correndo para lançar modelos de voz capazes de conversas naturais e em tempo real. Mas os parâmetros de referência utilizados para avaliar esses modelos ainda funcionam, em grande parte, com discurso sintético, comandos apenas em inglês e conjuntos de testes programados que têm pouca semelhança com a forma como as pessoas realmente falam. Scale AI, a startup de anotação de grandes dados cujo fundador foi contratado pela Meta no ano passado para liderar seu Laboratório de Superinteligência, ainda está forte e enfrentando o problema de frente: hoje lança o Voice Showdown, o que chama de a primeira arena global baseada em preferências projetada para avaliar a IA de voz através das lentes da interação humana real. Este produto oferece um valor estratégico único aos usuários: acesso gratuito aos principais modelos de fronteira do mundo. Por meio da plataforma ChatLab da Scale, os usuários podem interagir com modelos de alto nível – que normalmente exigem várias assinaturas de US$ 20 por mês – sem nenhum custo. Em troca, os usuários participam ocasionalmente de encontros cegos e frente a frente. "batalhas" para escolher qual dos dois principais modelos de voz anônimos oferece uma melhor experiência, fornecendo dados para o quadro de classificação de modelos de IA de voz mais autênticos e de preferência humana do setor. "Voice AI é realmente a fronteira mais rápida em IA no momento," disse Janie Gu, gerente de produto da Showdown at Scale AI. "Mas a forma como avaliamos os modelos de voz não acompanhou." Os resultados, extraídos de milhares de conversas espontâneas por voz em mais de 60 idiomas, revelam lacunas de capacidade que outros benchmarks têm consistentemente ignorado. Como funciona o Voice Showdown do Scale Voice Showdown é construído no ChatLab, a plataforma de bate-papo independente de modelo da Scale, onde os usuários podem interagir livremente com qualquer modelo de IA de fronteira que escolherem – gratuitamente – em um único aplicativo. A plataforma está disponível para a comunidade global da Scale de mais de 500.000 anotadores, dos quais cerca de 300.000 enviaram pelo menos um prompt. A Scale está abrindo a plataforma para uma lista de espera pública hoje. O mecanismo de avaliação é elegante em sua simplicidade: enquanto um usuário está tendo uma conversa de voz natural com um modelo, o sistema ocasionalmente – em menos de 5% de todos os comandos de voz – apresenta uma comparação cega lado a lado. O mesmo prompt é enviado para um segundo modelo anônimo, e o usuário escolhe a resposta de sua preferência. Este design resolve três problemas que afetam os benchmarks de voz existentes. Primeiro, cada prompt vem da fala humana real – com sotaques, ruído de fundo, frases incompletas e preenchimento de conversação – em vez de áudio sintetizado gerado a partir de texto. Em segundo lugar, a plataforma abrange mais de 60 idiomas em 6 continentes, com mais de um terço das batalhas ocorrendo em idiomas diferentes do inglês, incluindo espanhol, árabe, japonês, português, hindi e francês. Terceiro, como as batalhas ocorrem nas conversas diárias reais dos usuários, 81% das solicitações são conversacionais ou abertas – perguntas sem uma única resposta correta. Isso exclui a pontuação automatizada e faz da preferência humana o único sinal credível. O Voice Showdown atualmente executa dois modos de avaliação: Ditar (os usuários falam, os modelos respondem com texto) e Fala para Fala, ou S2S (Fala para Fala, os usuários falam, os modelos respondem). Um terceiro modo – Full Duplex, que captura conversas interrompíveis em tempo real – está em desenvolvimento. Votação alinhada por incentivos Um detalhe de design diferencia o Voice Showdown do Chatbot Arena (LM Arena), o benchmark de texto com o qual ele mais se assemelha. Na LM Arena, os críticos notaram que os usuários às vezes dão votos descartáveis, com pouca participação no resultado. O Voice Showdown aborda isso diretamente: depois que um usuário vota no modelo de sua preferência, o aplicativo o alterna para esse modelo pelo resto da conversa. Se você votou no GPT-4o Audio em vez do Gemini, agora está falando com o GPT-4o Audio. Esse alinhamento das consequências com as preferências desencoraja o voto casual ou desonesto. O sistema também controla confusões que podem corromper as comparações: as respostas de ambos os modelos começam a ser transmitidas simultaneamente (eliminando o preconceito de velocidade), o género da voz é correspondido em ambas as opções (eliminando o preconceito de preferência de género) e nenhum dos modelos é identificado pelo nome durante a votação. O novo ranking de Voice AI ao qual todo tomador de decisão empresarial deve prestar atenção Voice Showdown é lançado com 11 modelos de fronteira avaliados em 52 pares modelo-voz em 18 de março de 2026. Nem todos os modelos suportam ambos os modos de avaliação – a tabela de classificação Dictate inclui 8 modelos, enquanto S2S inclui 6. Ditar placar (Speech-In, Text-Out) Nesse modo, os usuários fornecem um prompt falado e avaliam duas respostas de texto lado a lado. Aqui estão as pontuações básicas: Gêmeos 3 Pró (1073) Gêmeos 3 Flash (1068) Áudio GPT-4o (1019) Pergunta 3 Omni (1000) Voxtral Pequeno (925) Gema 3n (918) GPT em tempo real (875) Phi-4 Multimodal (729) Observação: Gemini 3 Pro e Gemini 3 Flash estão estatisticamente empatados no topo da classificação. Tabela de classificação de fala para fala (S2S) Neste modo, os usuários falam com o modelo e avaliam duas respostas de áudio concorrentes. Também linhas de base: Áudio Flash Gêmeos 2.5 (1060) Áudio GPT-4o (1059) Voz Grok (1024) Pergunta 3 Omni (1000) GPT em tempo real (962) GPT em tempo real 1.5 (920) Observação: Gemini 2.5 Flash Audio e GPT-4o Audio estão estatisticamente empatados no topo da classificação nas avaliações iniciais. As classificações do Dictate são lideradas pelo Gemini 3 Pro e Gemini 3 Flash do Google, que estão estatisticamente empatados em primeiro lugar, com pontuações Elo

Os grandes modelos de linguagem estão a atingir limites em domínios que exigem uma compreensão do mundo físico – desde a robótica à

O futuro da IA não é apenas agente; é uma personalização profunda. Em vez de simples sistemas de recomendação que correlacionam o comportamento

Nos últimos anos, a startup chinesa de IA MiniMax tornou-se uma das mais interessantes no concorrido mercado global de IA, conquistando uma reputação

A era da IA generativa começou para a maioria das pessoas com o lançamento do ChatGPT da OpenAI no final de 2022, mas

A Nvidia revelou na segunda-feira um supercomputador de mesa poderoso o suficiente para executar modelos de IA com até um trilhão de parâmetros

Recente relatórios sobre as taxas de fracasso de projetos de IA levantaram questões desconfortáveis para organizações que investem pesadamente em IA. Grande parte

O mundo da engenharia de software está atualmente lutando com um paradoxo fundamental da era da IA: à medida que os modelos se

NanoClaw, a plataforma de agente de IA de código aberto criada por Gavriel Cohen, está fazendo parceria com a plataforma de desenvolvimento em

A advogada Dra. Ana Cristina Martins participou do episódio #20 do programa Resenha Jurídica, da Rede Vivax TV, em entrevista conduzida por Luciano Peres. O encontro

Neste final de semana, a cidade de Caxias do Sul recebe a Imersão de Vendas Realcenter, um encontro estratégico que reúne todos os
Os jogos cooperativos se tornaram uma das formas mais divertidas e populares de reunir amigos, seja de forma presencial ou online. Ao invés

O empresário Jean Patrick Garcia Baleche é um dos casos de sucesso vertiginoso no mundo dos negócios. Anualmente acumula diversos prêmios profissionais e

O empresário Jean Patrick Garcia Baleche prepara um dos movimentos mais estratégicos da trajetória do Grupo Hadassa Viagens. Em comemoração aos 18 anos

Kayo Magalhães / Câmara dos Deputados Deputado Sidney Leite, relator da proposta A Comissão de Minas e Energia da Câmara dos Deputados aprovou

É mais você, fantástico, espetacular… O Grupo Hadassa Viagens não para de surpreender e além das promoções imbatíveis em preços, roteiros e excelência,

Realizar sonhos por meio de viagens internacionais e experiências inesquecíveis é um desejo inerente ao ser humano. Conhecer novas culturas, explorar destinos deslumbrantes

A história de crescimento profissional dentro do setor de beleza muitas vezes começa de forma simples. No caso de Laís Rocha, hoje gerente

Dizem que o amor supera tudo, mas nem sempre supera o ronco. Nos Estados Unidos, estima-se que 82% dos casais compartilhem a cama.

A descrição pode soar sofisticada mas é um hábito mais comum e necessário do que parece. Trata-se da metacognição, a capacidade de observar

O primeiro ciclo de Mercúrio retrógrado chega ao fim nesta sexta-feira (20). Embora muitos esperem um período mais tranquilo, a fase de transição
© 2025 Todos os direitos reservados a Handelsblatt – CNPJ 45.520.680/0001-02