Player Live
AO VIVO
12 de maio de 2026
Thinking Machines mostra uma prévia de conversas de voz e vídeo de IA quase em tempo real com novos ‘modelos de interação’

Thinking Machines mostra uma prévia de conversas de voz e vídeo de IA quase em tempo real com novos ‘modelos de interação’

A IA está deixando a era da "baseado em turnos" bater papo? No momento, todos nós que usamos modelos de IA regularmente no trabalho ou em nossas vidas pessoais sabemos que o modo básico de interação entre texto, imagens, áudio e vídeo permanece o mesmo: o usuário humano fornece uma entrada, espera entre milissegundos e minutos (ou, em alguns casos, para consultas particularmente difíceis, horas e dias), e o modelo de IA fornece uma saída. Mas se a IA quiser realmente assumir a carga de trabalhos que exigem interação natural, ela precisará fazer mais do que fornecer esse tipo de "baseado em turnos" interatividade – em última análise, precisará responder de forma mais fluida e natural às entradas humanas, respondendo até mesmo enquanto processa o próximo entrada humana, seja texto ou outro formato. Essa pelo menos parece ser a afirmação da Thinking Machines, a bem financiada startup de IA fundada no ano passado pela ex-diretora de tecnologia da OpenAI Mira Murati e pelo ex-pesquisador e cofundador da OpenAI John Schulman, entre outros. Hoje, a empresa anunciou uma prévia da pesquisa do que considera ser "modelos de interação, uma nova classe de sistemas multimodais nativos que trata a interatividade como um cidadão de primeira classe da arquitetura do modelo, em vez de um software externo "aproveitar," obtendo alguns ganhos impressionantes em benchmarks de terceiros e, como resultado, latência reduzida. No entanto, os modelos ainda não estão disponíveis para o público em geral ou mesmo para empresas – a empresa afirma em seu anúncio no blog: "Nos próximos meses, abriremos uma prévia limitada da pesquisa para coletar feedback, com um lançamento mais amplo ainda este ano." Processamento simultâneo de entrada/saída ‘Full duplex’ No centro deste anúncio está uma mudança fundamental na forma como a IA percebe o tempo e a presença. Os atuais modelos de fronteira normalmente vivenciam a realidade em um único fio; eles esperam que o usuário termine uma entrada antes de começar o processamento e sua percepção congela enquanto eles geram uma resposta. Em sua postagem no blog, os pesquisadores da Thinking Machines descreveram o status quo como uma limitação que força os humanos a "contorcerem-se" às interfaces de IA, formulando perguntas como e-mails e agrupando suas ideias. Para resolver isso "gargalo de colaboração," Thinking Machines se afastou da sequência de tokens alternada padrão. Em vez disso, eles usam um design multifluxo e microvolta que processa blocos de entrada e saída de 200 ms simultaneamente. Esse "full-duplex" A arquitetura permite que o modelo ouça, fale e veja em tempo real, permitindo que ele faça backchannel enquanto um usuário fala ou intervém quando percebe uma dica visual – como um usuário escrevendo um bug em um trecho de código ou um amigo entrando em um quadro de vídeo. Tecnicamente, o modelo utiliza fusão precoce sem codificador. Em vez de depender de codificadores autônomos massivos como o Whisper para áudio, o sistema recebe sinais de áudio brutos como dMel e patches de imagem (40×40) por meio de uma camada de incorporação leve, co-treinando todos os componentes do zero dentro do transformador. Sistema de modelo duplo A prévia da pesquisa apresenta TML-Interação-Pequenoum Mistura de especialistas (MoE) de 276 bilhões de parâmetros modelo com 12 bilhões de parâmetros ativos. Como a interação em tempo real exige tempos de resposta quase instantâneos que muitas vezes entram em conflito com o raciocínio profundo, a empresa arquitetou um sistema de duas partes: O modelo de interação: Permanece em constante intercâmbio com o usuário, gerenciando o diálogo, a presença e o acompanhamento imediato. O modelo de fundo: Um agente assíncrono que lida com raciocínio sustentado, navegação na web ou chamadas de ferramentas complexas, transmitindo resultados de volta ao modelo de interação para serem integrados naturalmente na conversa. Essa configuração permite que a IA execute tarefas como tradução ao vivo ou geração de um gráfico de IU enquanto continua a ouvir o feedback do usuário – uma capacidade demonstrada no vídeo de anúncio onde o modelo forneceu tempos típicos de reação humana para várias dicas enquanto gerava simultaneamente um gráfico de barras. Desempenho impressionante nos principais benchmarks em comparação com modelos de interação rápida de outros laboratórios líderes de IA Para provar a eficácia desta abordagem, o laboratório utilizou Banco FDum benchmark projetado especificamente para medir a qualidade da interação, em vez de apenas inteligência bruta. Os resultados mostram que TML-Interaction-Small supera significativamente os sistemas em tempo real existentes: Capacidade de resposta: Alcançou uma latência de tomada de turno de 0,40 segundosem comparação com 0,57s para Gemini-3.1-flash-live e 1,18s para GPT-realtime-2.0 (mínimo). Qualidade da interação: No banco FD V1.5, marcou 77,8quase dobrando as pontuações de seus principais concorrentes (GPT-realtime-2.0 pontuação mínima de 46,8). Proatividade Visual: Em testes especializados como RepCount-A (contando repetições físicas em vídeo) e Controle de qualidade de vídeo proativoo modelo das Thinking Machines se envolveu com sucesso com o mundo visual, enquanto outros modelos de fronteira permaneceram em silêncio ou forneceram respostas incorretas. Métrica TML-Interação-Pequeno GPT-tempo real-2.0 (min) Gemini-3.1-flash-live (min) Latência(s) de tomada de turnos 0,40 1.18 0,57 Qualidade da interação (média) 77,8 46,8 54,3 IFEval (VoiceBench) 82,1 81,7 67,6 Harmbench (Recusa%) 99,0 99,5 99,0 Um benefício potencialmente enorme para as empresas – assim que os modelos forem disponibilizados Se disponibilizados ao setor empresarial, os modelos de interação das Thinking Machines representariam uma mudança fundamental na forma como as empresas integram a IA nos seus fluxos de trabalho operacionais. Um modelo de interação nativo como TML-Interaction-Small permite vários recursos empresariais que são atualmente impossíveis ou altamente frágeis com modelos multimodais padrão: A IA empresarial atual requer um "vez" ser concluído antes de poder analisar os dados. Em um ambiente de fabricação ou laboratório, um modelo de interação nativo pode monitorar um feed de vídeo e intervir proativamente no momento em que detecta uma violação de segurança ou um desvio de um protocolo – sem esperar que o trabalhador peça feedback. O sucesso do modelo em benchmarks visuais como RepCount-A (contagem precisa de repetições) e ProactiveVideoQA (responder a perguntas conforme a evidência visual aparece) sugere

Leia Mais »