Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora
O Openai aumenta um mercado de voz de IA cada vez mais competitivo para empresas com seu novo modelo, GPT-Realtime, que segue instruções complexas e com vozes “que parecem mais naturais e expressivas”.
À medida que a Voice AI continua a crescer, e os clientes encontram casos de uso, como chamadas de atendimento ao cliente ou tradução em tempo real, o mercado de vozes de IA que também oferecem uma segurança corporativa está esquentando. O Openai afirma que seu novo modelo fornece uma voz mais humana, mas ainda precisa competir contra empresas como o Elevenlabs.
O modelo estará disponível na API em tempo real, que a empresa também disponibilizou em geral. Juntamente com o modelo GPT-Realtime, o OpenAI também lançou novas vozes na API, que chama de Cedar e Marin, e atualizou suas outras vozes para trabalhar com o modelo mais recente.
O Openai disse em uma transmissão ao vivo que trabalhou com seus clientes que estão criando aplicativos de voz para treinar o GPT-REALTIME e “alinhar cuidadosamente o modelo a Evalas, construídas em cenários do mundo real, como suporte ao cliente e tutoria acadêmica”.
Ai escala atinge seus limites
Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:
- Transformando energia em uma vantagem estratégica
- Arquitetagem Inferência eficiente para ganhos reais de rendimento
- Desbloqueando o ROI competitivo com sistemas de IA sustentáveis
Prenda seu lugar para ficar à frente: https://bit.ly/4mwgngo
A empresa elogiou a capacidade do modelo de criar vozes emotivas e com sotações naturais que também se alinham com a forma como os desenvolvedores se formam com a tecnologia.
Modelos de fala a fala
O modelo opera dentro de uma estrutura de fala a fala, permitindo que ele entenda os prompts falados e responda vocalmente. Os modelos de fala a fala são ideais para respostas em tempo real, onde uma pessoa, normalmente um cliente, interage com um aplicativo.
Por exemplo, um cliente deseja devolver alguns produtos e chama uma plataforma de atendimento ao cliente. Eles poderiam estar conversando com um assistente de voz da IA que responde a perguntas e solicitações como se estivessem conversando com um humano.
Em uma transmissão ao vivo, os clientes da OpenAI que a T-Mobile exibiu um agente de voz que ajuda as pessoas a encontrar novos telefones. Outro cliente, a plataforma de busca imobiliária Zillow, mostrou um agente que ajuda alguém a restringir um bairro a encontrar o lugar perfeito.
O Openai disse que o GPT-Realtime é o “modelo de voz mais avançado e pronto para produção”. Como seus outros modelos de voz, ele pode mudar de linguagem no meio da frase. No entanto, os pesquisadores do Openai observaram que o GPT-Realtime pode seguir instruções mais complexas como “falar enfaticamente com sotaque francês”.
Mas o GPT-Realtime enfrenta a concorrência de outros modelos que muitas marcas já usam. O Elevenlabs lançou a conversa AI 2.0 em maio. A SoundHound faz parceria com as franquias de fast food para um drive-thru de voz da IA. A startup de IA enfática Hume lançou seu modelo Evi 3, que permite aos usuários gerar versões de IA de sua própria voz.
À medida que as empresas descobrem vários casos de uso para a IA de voz, fornecedores de modelos ainda mais gerais que oferecem LLMs multimodais estão fazendo um caso para si. A Mistral lançou seu novo modelo voxtral, afirmando que funcionaria bem com a tradução em tempo real. O Google está aprimorando seus recursos de áudio e ganhando popularidade com um recurso de áudio no Notebooklm que converte notas de pesquisa em um podcast.
Melhor instrução a seguir
Openai disse que o GPT-Realtime é mais inteligente e entende melhor o áudio nativo, incluindo a capacidade de capturar pistas não verbais como risadas ou suspiros.
O benchmarking usando o Big Bench Audio Eval mostrou o modelo pontuando 82,8% em precisão, em comparação com o modelo anterior, que obteve 65,6%. O OpenAI não forneceu números testando o GPT-REALTILT contra modelos de seus concorrentes.
O OpenAI se concentrou em melhorar os recursos de seguidores de instruções do modelo, garantindo que o modelo siga as direções de maneira mais eficaz. O novo modelo atinge uma pontuação de 30,5% na referência de áudio Multichallenge. Os engenheiros também aprimoraram a chamada de função para que o GPT-REALTIME possa acessar as ferramentas corretas.
Atualizações da API em tempo real
Para apoiar o novo modelo e aprimorar como as empresas integram os recursos de IA em tempo real em seus aplicativos, o OpenAI adicionou vários novos recursos à API em tempo real.
Agora ele pode suportar o MCP e reconhecer entradas de imagem, permitindo que ele informe os usuários sobre o que ele vê em tempo real. Este é um recurso que o Google enfatizou fortemente durante sua apresentação do Project Astra no ano passado.
A API em tempo real também pode lidar com o protocolo de iniciação de sessão (SIP). O SIP conecta aplicativos a telefones como uma rede de telefonia pública ou telefones de mesa, abrindo mais casos de uso do Contact Center. Os usuários também podem salvar e reutilizar os avisos na API.
Até agora, as pessoas estão impressionadas com o modelo, embora estes ainda sejam testes iniciais de um modelo que foi lançado recentemente.
TBH, os recursos do MCP e SIP são a história real aqui, não apenas mais um modelo.
A capacidade de se conectar a ferramentas e sistemas externos é perfeitamente o que finalmente levará esses modelos de serem demos impressionantes para serem integrados aos fluxos de trabalho reais.
O aspecto em tempo real …
– jk (@_junaidkhalid1) 28 de agosto de 2025
Testando o GPT-Realtime
Revisão inicial:
– Jake Colling (@jacobcolling) 28 de agosto de 2025
– Melhoria notável de áudio
– É um defensor das instruções (muito bom)
– Parece rápido pic.twitter.com/ltycs0qlxv
Bem, o GPT-RealTime recebeu uma transmissão ao vivo não porque a maioria dos usuários está interessada, mas por razões de negócios estratégicas
Os call centers são uma das principais metas para os provedores de LLM e a primeira empresa a alcançar um avanço real receberá uma receita maciça
– Anko (@anko_979) 28 de agosto de 2025
Prós e contras de @Openai Atualização em tempo real de alguém construindo em áudio de IA:
Pro: melhor chamada de função, mais emoção, 20% mais barato, melhor controle, imagem é legal, mas não usa
CON: Nenhuma voz personalizada (experiência criativa deve ter), ainda * caro * vs tts-llm-stt pipelines
– Gavin Purcell (@gavinpurcell) 28 de agosto de 2025
O OpenAI reduziu os preços do GPT-Realtime em 20%, para US $ 32 por milhão de tokens de entrada de áudio e US $ 64 para tokens de saída de áudio.
Insights diários sobre casos de uso de negócios com VB diariamente
Se você deseja impressionar seu chefe, o VB Daily o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais boletins de VB aqui.
Ocorreu um erro.

Fonte ==> Cyberseo