Os novos agentes da IA ​​de Phonely atingem 99% de precisão – e os clientes não podem dizer que não são humanos

Como o Hospital de Ottawa usa a captura de voz ambiental da IA ​​para reduzir o esgotamento do médico em 70%, alcançar 97% de satisfação do paciente

Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


Uma parceria de três vias entre a empresa de suporte telefônica da IA, Pênal, a plataforma de otimização de inferência Maitai, e a fabricante de chips Groq alcançou um avanço que aborda um dos problemas mais persistentes da inteligência artificial de conversação: os atrasos desajeitados que imediatamente sinalizam para os chamadores estão conversando com uma máquina.

A colaboração permitiu reduzir os tempos de resposta em mais de 70%, ao mesmo tempo em que aumentava a precisão de 81,5% para 99,2% em quatro iterações do modelo, superando a referência de 94,7% do GPT-4O em 4,5 pontos percentuais. As melhorias decorrem da nova capacidade da Groq para alternar instantaneamente entre vários modelos especializados de IA sem latência adicional, orquestrada pela plataforma de otimização da Maitai.

A conquista resolve o que os especialistas do setor chamam de “vale estranho” da Voice AI-as pistas sutis que fazem as conversas automatizadas parecerem distintamente não humanas. Para call centers e operações de atendimento ao cliente, as implicações podem ser transformadoras: um dos clientes da Phonely está substituindo 350 agentes humanos apenas neste mês.

Por que as chamadas telefônicas de IA ainda soam robóticas: o problema de quatro segundos

Modelos tradicionais de grandes idiomas como o GPT-4O da OpenAI há muito tempo lutam com o que parece ser um desafio simples: responder com rapidez suficiente para manter o fluxo de conversas naturais. Enquanto alguns segundos de atraso quase se registram em interações baseadas em texto, a mesma pausa parece interminável durante conversas telefônicas ao vivo.

“Uma das coisas que a maioria das pessoas não percebe é que os principais fornecedores de LLM, como Openai, Claude e outros, têm um alto grau de variação de latência”, disse Will Bodewes, fundador e CEO da Phonely, em uma entrevista exclusiva ao Venturebeat. “4 segundos parecem uma eternidade se você estiver conversando com uma voz AI no telefone-esse atraso é o que faz com que a maior parte da AI hoje pareça não humana.”

O problema ocorre aproximadamente uma vez a cada dez solicitações, o que significa que as conversas padrão incluem inevitavelmente pelo menos uma ou duas pausas embaraçosas que revelam imediatamente a natureza artificial da interação. Para as empresas que consideram os agentes telefônicos de IA, esses atrasos criaram uma barreira significativa à adoção.

“Esse tipo de latência é inaceitável para o suporte telefônico em tempo real”, explicou Bodewes. “Além da latência, a precisão de conversação e as respostas humanas é algo que os provedores do LEGACE LLM simplesmente não racharam no reino da voz.”

Como três startups resolveram o maior desafio de conversação da IA

A solução emergiu do desenvolvimento da Groq do que a empresa chama de “Lora Hotswapping Lora Lora”-a capacidade de alternar instantaneamente entre várias variantes de modelo AI especializadas sem nenhuma penalidade de desempenho. Lora, ou adaptação de baixo rank, permite que os desenvolvedores criem modificações leves e específicas de tarefas para os modelos existentes, em vez de treinar totalmente novos do zero.

“A combinação de arquitetura controlada por software de refrigeração da Groq, memória de alta velocidade no chip, arquitetura de streaming e execução determinística significa que é possível acessar vários Loras com troca a quente, sem penalidade de latência”, explicou Chelsey Kantor, diretor de marketing da GROQ, em entrevista ao VentureBeat. “Os Loras são armazenados e gerenciados em SRAM ao lado dos pesos do modelo original.”

Esse avanço de infraestrutura permitiu que Maitai criasse o que o fundador Christian Dalsanto descreve como um sistema de “orquestração da camada de proxy” que otimiza continuamente o desempenho do modelo. “Maitai atua como uma fina camada de proxy entre os clientes e seus provedores de modelos”, disse Dalsanto. “Isso nos permite selecionar e otimizar dinamicamente o melhor modelo para cada solicitação, aplicando automaticamente as estratégias de avaliação, otimizações e resiliência, como fallbacks”.

O sistema funciona coletando dados de desempenho de todas as interações, identificando pontos fracos e melhorando iterativamente os modelos sem intervenção do cliente. “Como Maitai fica no meio do fluxo de inferência, coletamos sinais fortes, identificando onde os modelos abaixo do desempenho”, explicou Dalsanto. “Esses ‘pontos macios’ são agrupados, rotulados e de forma incremental para abordar fraquezas específicas sem causar regressões”.

De 81% a 99% de precisão: os números por trás da inovação humana da IA

Os resultados demonstram melhorias significativas em várias dimensões de desempenho. O tempo para o primeiro token – a rapidez com que uma IA começa a responder – caiu 73,4% de 661 milissegundos para 176 milissegundos no percentil 90. Os tempos gerais de conclusão caíram 74,6% de 1.446 milissegundos para 339 milissegundos.

Talvez mais significativamente, as melhorias de precisão seguiram uma trajetória ascendente clara em quatro iterações do modelo, começando em 81,5% e atingindo 99,2% – um nível que excede o desempenho humano em muitos cenários de atendimento ao cliente.

“Temos visto cerca de 70%de pessoas que chamam nossa IA não sendo capaz de distinguir a diferença entre uma pessoa”, disse Bodewes à VentureBeat. “A latência é, ou foi a oferta morta de que era uma IA. Com um modelo ajustado personalizado que fala como uma pessoa e hardware super de baixa latência, não há muito nos impedindo de atravessar o estranho vale de soar completamente humano”.

Os ganhos de desempenho se traduzem diretamente para os resultados dos negócios. “Um de nossos maiores clientes viu um aumento de 32% nos leads qualificados em comparação com uma versão anterior usando modelos anteriores de última geração”, observou Bodews.

350 agentes humanos substituídos em um mês: os call centers vão all-in na IA

As melhorias chegam à medida que os call centers enfrentam pressão de montagem para reduzir custos, mantendo a qualidade do serviço. Os agentes humanos tradicionais exigem treinamento, coordenação de agendamento e custos indiretos significativos que os agentes da IA ​​podem eliminar.

“Os call centers estão realmente vendo enormes benefícios ao usar fonemente para substituir agentes humanos”, disse Bodewes. “Um dos call centers com os quais trabalhamos é substituir completamente 350 agentes humanos por telefone apenas neste mês. De uma perspectiva de call center, isso é um divisor de águas, porque eles não precisam gerenciar cronogramas de agentes de apoio humano, agentes de treinar e combinar oferta e demanda”.

A tecnologia mostra uma força particular em casos de uso específicos. “Realmente se destaca em algumas áreas, incluindo o desempenho líder do setor na programação de consultas e a qualificação de liderança especificamente, além do que os provedores legados são capazes”, explicou Bodewes. A empresa fez parceria com as principais empresas que lidam com as interações com seguros, jurídica e automotivo.

A borda do hardware: por que os chips do groq tornam a IA subsegunda possível

Os chips de inferência de IA especializados da GROQ, chamados de unidades de processamento de idiomas (LPUs), fornecem a base de hardware que torna a abordagem multimodelo viável. Ao contrário dos processadores gráficos de uso geral normalmente usados ​​para inferência de IA, as LPUs otimizam especificamente para a natureza seqüencial do processamento da linguagem.

“A arquitetura da LPU é otimizada para controlar com precisão o movimento e a computação de dados em um nível de granulação fina com alta velocidade e previsibilidade, permitindo o gerenciamento eficiente de vários pequenos conjuntos de pesos ‘delta’ (os Loras) em um modelo de base comum sem latência adicional”, disse Kantor.

A infraestrutura baseada em nuvem também aborda preocupações de escalabilidade que historicamente limitaram a implantação de IA. “A beleza de usar uma solução baseada em nuvem como a GroqCloud é que o Groq lida com a orquestração e o escala dinâmico para nossos clientes para qualquer modelo de IA que oferecemos, incluindo modelos Lora ajustados”, explicou Kantor.

Para as empresas, as vantagens econômicas parecem substanciais. “A simplicidade e eficiência do design do sistema, baixo consumo de energia e alto desempenho de nosso hardware, permite que a Groq forneça aos clientes o menor custo por token sem sacrificar o desempenho à medida que eles escalam”, disse Kantor.

Implantação de IA no mesmo dia: como as empresas pula meses de integração

Um dos aspectos mais atraentes da parceria é a velocidade de implementação. Ao contrário das implantações tradicionais de IA que podem exigir meses de trabalho de integração, a abordagem de Maitai permite transições no mesmo dia para empresas que já usam modelos de uso geral.

“Para as empresas que já estão em produção usando modelos de uso geral, normalmente nos transitamos para Maitai no mesmo dia, com ruptura zero”, disse Dalsanto. “Começamos a coleta imediata de dados e, em poucos dias a uma semana, podemos fornecer um modelo de ajuste fino mais rápido e confiável que a configuração original”.

Essa capacidade de implantação rápida aborda uma preocupação comum da empresa com os projetos de IA: longas linhas de tempo de implementação que atrasam o retorno do investimento. A abordagem da camada de proxy significa que as empresas podem manter suas integrações de API existentes, obtendo acesso a melhorar continuamente o desempenho.

O futuro da IA ​​corporativa: modelos especializados substituem um tamanho único

A colaboração sinaliza uma mudança mais ampla na arquitetura da IA ​​corporativa, afastando-se de modelos monolíticos de uso geral em direção a sistemas especializados e específicos de tarefas. “Estamos observando a crescente demanda de equipes dividindo suas aplicações em cargas de trabalho menores e altamente especializadas, cada uma se beneficiando de adaptadores individuais”, disse Dalsanto.

Essa tendência reflete a compreensão amadurecida dos desafios de implantação da IA. Em vez de esperar que modelos únicos se destacem em todas as tarefas, as empresas reconhecem cada vez mais o valor de soluções criadas para propósitos que podem ser refinados continuamente com base em dados de desempenho do mundo real.

“A Multi-Lora Hotswapping permite que as empresas implantem modelos mais rápidos e precisos personalizados com precisão para suas aplicações, removendo barreiras tradicionais de custo e complexidade”, explicou Dalsanto. “Isso muda fundamentalmente como a IA da empresa é construída e implantada”.

A fundação técnica também permite aplicações mais sofisticadas à medida que a tecnologia amadurece. A infraestrutura da GROQ pode suportar dezenas de modelos especializados em uma única instância, potencialmente permitindo que as empresas criem experiências de IA altamente personalizadas em diferentes segmentos de clientes ou casos de uso.

“O Hotswapping multi-Lora permite a inferência de baixa latência e alta precisão adaptada a tarefas específicas”, disse Dalsanto. “Nosso roteiro prioriza mais investimentos em infraestrutura, ferramentas e otimização para estabelecer uma inferência de granulação fina e específica de aplicação como o novo padrão”.

Para o mercado de IA de conversação mais amplo, a parceria demonstra que as limitações técnicas, uma vez consideradas intransponíveis, podem ser abordadas por meio de infraestrutura especializada e design cuidadoso do sistema. À medida que mais empresas implantam agentes telefônicos de IA, as vantagens competitivas demonstradas pela telefone podem estabelecer novas expectativas de linha de base para desempenho e capacidade de resposta nas interações automatizadas dos clientes.

O sucesso também valida o modelo emergente de empresas de infraestrutura de IA que trabalham juntas para resolver desafios complexos de implantação. Essa abordagem colaborativa pode acelerar a inovação em todo o setor de IA da empresa, à medida que os recursos especializados se combinam para fornecer soluções que excedam o que qualquer fornecedor pode alcançar independentemente. Se essa parceria for uma indicação, a era das conversas telefônicas obviamente artificiais pode estar chegando ao fim mais rápido do que qualquer um esperado.



Fonte ==> Cyberseo

Relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *