Tecnologia

No mercado de AI de voz lotada, o OpenAI apostou em seguidores e discursos expressivos para ganhar a adoção empresarial

Editor Handelsblatt

Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora

O Openai aumenta um mercado de voz de IA cada vez mais competitivo para empresas com seu novo modelo, GPT-Realtime, que segue instruções complexas e com vozes “que parecem mais naturais e expressivas”.

À medida que a Voice AI continua a crescer, e os clientes encontram casos de uso, como chamadas de atendimento ao cliente ou tradução em tempo real, o mercado de vozes de IA que também oferecem uma segurança corporativa está esquentando. O Openai afirma que seu novo modelo fornece uma voz mais humana, mas ainda precisa competir contra empresas como o Elevenlabs.

O modelo estará disponível na API em tempo real, que a empresa também disponibilizou em geral. Juntamente com o modelo GPT-Realtime, o OpenAI também lançou novas vozes na API, que chama de Cedar e Marin, e atualizou suas outras vozes para trabalhar com o modelo mais recente.

O Openai disse em uma transmissão ao vivo que trabalhou com seus clientes que estão criando aplicativos de voz para treinar o GPT-REALTIME e “alinhar cuidadosamente o modelo a Evalas, construídas em cenários do mundo real, como suporte ao cliente e tutoria acadêmica”.

Ai escala atinge seus limites

Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:

Transformando energia em uma vantagem estratégica

Arquitetagem Inferência eficiente para ganhos reais de rendimento

Desbloqueando o ROI competitivo com sistemas de IA sustentáveis

Prenda seu lugar para ficar à frente: https://bit.ly/4mwgngo

https://www.youtube.com/watch?v=nfbbmtmjhx0

A empresa elogiou a capacidade do modelo de criar vozes emotivas e com sotações naturais que também se alinham com a forma como os desenvolvedores se formam com a tecnologia.

Modelos de fala a fala

O modelo opera dentro de uma estrutura de fala a fala, permitindo que ele entenda os prompts falados e responda vocalmente. Os modelos de fala a fala são ideais para respostas em tempo real, onde uma pessoa, normalmente um cliente, interage com um aplicativo.

Por exemplo, um cliente deseja devolver alguns produtos e chama uma plataforma de atendimento ao cliente. Eles poderiam estar conversando com um assistente de voz da IA que responde a perguntas e solicitações como se estivessem conversando com um humano.

Em uma transmissão ao vivo, os clientes da OpenAI que a T-Mobile exibiu um agente de voz que ajuda as pessoas a encontrar novos telefones. Outro cliente, a plataforma de busca imobiliária Zillow, mostrou um agente que ajuda alguém a restringir um bairro a encontrar o lugar perfeito.

O Openai disse que o GPT-Realtime é o “modelo de voz mais avançado e pronto para produção”. Como seus outros modelos de voz, ele pode mudar de linguagem no meio da frase. No entanto, os pesquisadores do Openai observaram que o GPT-Realtime pode seguir instruções mais complexas como “falar enfaticamente com sotaque francês”.

Mas o GPT-Realtime enfrenta a concorrência de outros modelos que muitas marcas já usam. O Elevenlabs lançou a conversa AI 2.0 em maio. A SoundHound faz parceria com as franquias de fast food para um drive-thru de voz da IA. A startup de IA enfática Hume lançou seu modelo Evi 3, que permite aos usuários gerar versões de IA de sua própria voz.

À medida que as empresas descobrem vários casos de uso para a IA de voz, fornecedores de modelos ainda mais gerais que oferecem LLMs multimodais estão fazendo um caso para si. A Mistral lançou seu novo modelo voxtral, afirmando que funcionaria bem com a tradução em tempo real. O Google está aprimorando seus recursos de áudio e ganhando popularidade com um recurso de áudio no Notebooklm que converte notas de pesquisa em um podcast.

Melhor instrução a seguir

Openai disse que o GPT-Realtime é mais inteligente e entende melhor o áudio nativo, incluindo a capacidade de capturar pistas não verbais como risadas ou suspiros.

O benchmarking usando o Big Bench Audio Eval mostrou o modelo pontuando 82,8% em precisão, em comparação com o modelo anterior, que obteve 65,6%. O OpenAI não forneceu números testando o GPT-REALTILT contra modelos de seus concorrentes.

O OpenAI se concentrou em melhorar os recursos de seguidores de instruções do modelo, garantindo que o modelo siga as direções de maneira mais eficaz. O novo modelo atinge uma pontuação de 30,5% na referência de áudio Multichallenge. Os engenheiros também aprimoraram a chamada de função para que o GPT-REALTIME possa acessar as ferramentas corretas.

Atualizações da API em tempo real

Para apoiar o novo modelo e aprimorar como as empresas integram os recursos de IA em tempo real em seus aplicativos, o OpenAI adicionou vários novos recursos à API em tempo real.

Agora ele pode suportar o MCP e reconhecer entradas de imagem, permitindo que ele informe os usuários sobre o que ele vê em tempo real. Este é um recurso que o Google enfatizou fortemente durante sua apresentação do Project Astra no ano passado.

A API em tempo real também pode lidar com o protocolo de iniciação de sessão (SIP). O SIP conecta aplicativos a telefones como uma rede de telefonia pública ou telefones de mesa, abrindo mais casos de uso do Contact Center. Os usuários também podem salvar e reutilizar os avisos na API.

Até agora, as pessoas estão impressionadas com o modelo, embora estes ainda sejam testes iniciais de um modelo que foi lançado recentemente.

TBH, os recursos do MCP e SIP são a história real aqui, não apenas mais um modelo.
A capacidade de se conectar a ferramentas e sistemas externos é perfeitamente o que finalmente levará esses modelos de serem demos impressionantes para serem integrados aos fluxos de trabalho reais.
O aspecto em tempo real …
– jk (@_junaidkhalid1) 28 de agosto de 2025

Testando o GPT-Realtime
Revisão inicial:
– Melhoria notável de áudio
– É um defensor das instruções (muito bom)
– Parece rápido pic.twitter.com/ltycs0qlxv
– Jake Colling (@jacobcolling) 28 de agosto de 2025

Bem, o GPT-RealTime recebeu uma transmissão ao vivo não porque a maioria dos usuários está interessada, mas por razões de negócios estratégicas
Os call centers são uma das principais metas para os provedores de LLM e a primeira empresa a alcançar um avanço real receberá uma receita maciça
– Anko (@anko_979) 28 de agosto de 2025

Prós e contras de @Openai Atualização em tempo real de alguém construindo em áudio de IA:
Pro: melhor chamada de função, mais emoção, 20% mais barato, melhor controle, imagem é legal, mas não usa
CON: Nenhuma voz personalizada (experiência criativa deve ter), ainda * caro * vs tts-llm-stt pipelines
– Gavin Purcell (@gavinpurcell) 28 de agosto de 2025

O OpenAI reduziu os preços do GPT-Realtime em 20%, para US $ 32 por milhão de tokens de entrada de áudio e US $ 64 para tokens de saída de áudio.

Insights diários sobre casos de uso de negócios com VB diariamente

Se você deseja impressionar seu chefe, o VB Daily o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais boletins de VB aqui.

Ocorreu um erro.

Fonte ==> Cyberseo

Editor Handelsblatt

Colunas

Relacionados

Comissão aprova projeto que criminaliza uso de veículo com tração animal

Saúde pública e inclusão: a Educação Física como política social de transformação

Saúde, alimentação e sociedade: o papel da nutrição consciente no bem-estar coletivo

Dicas para reduzir o viés em entrevistas movidas a IA

Mais alunos voltam para a aula sem uma coisa crucial: seus telefones

UFSM abre inscrições para cursos técnicos gratuitos

Deixe um comentário Cancelar resposta
O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *
Comentário *
Nome *

E-mail *

Site

Salvar meus dados neste navegador para a próxima vez que eu comentar.

Captcha

6 * 3 = ?