Player Live
AO VIVO
4 de junho de 2026
O Qwen3.7-Plus do Alibaba suporta entradas de texto, vídeo e imagens a um baixo custo de US$ 0,4/US$ 1,6 por token de 1 milhão – mas é proprietário

O Qwen3.7-Plus do Alibaba suporta entradas de texto, vídeo e imagens a um baixo custo de US$ 0,4/US$ 1,6 por token de 1 milhão – mas é proprietário

A Alibaba lançou esta semana o Qwen3.7-Plus, o mais recente modelo de IA em linguagem grande (LLM) em sua família Qwen, globalmente amada e cada vez mais expansiva, ostentando mais recursos multimodais e um custo 60% menor do que o modelo anterior, Qwen3.7-Max, apenas de texto, lançado há apenas algumas semanas. No entanto, tal como o seu antecessor imediato, o Qwen3.7-Plus está disponível apenas sob um "fechado" licença comercial por meio de interfaces de programação de aplicativos (API) proprietárias e Qwen Chat. Isso marca um grande afastamento da estratégia Qwen até o momento, que se concentrava principalmente no lançamento de modelos de código aberto poderosos e quase de última geração. As empresas e utilizadores que confiaram nos modelos Qwen de código aberto – entre eles, gigantes norte-americanos como a Airbnb – ficarão sem dúvida desapontados ao ver que o Alibaba será fechado para os seus lançamentos mais recentes. Ainda assim, vale a pena dar uma olhada no modelo devido ao seu baixo custo e alto desempenho em tarefas multimodais, como criação de recursos visuais de nível empresarial ou análise de vídeos, imagens e capturas de tela, o que o Qwen3.7-Max não pode fazer (é somente texto). Está entre os modelos de IA poderosos e mais baratos disponíveis agora, chegando em termos de preço logo acima do preço com desconto por tempo limitado do novo rival chinês MiniMax-M3. Instantâneo de preços da API do modelo VentureBeat Frontier AI Modelo Entrada Saída Custo total Fonte Flash MiMo-V2.5 US$ 0,10 US$ 0,30 US$ 0,40 Xiaomi MiMo deepseek-v4-flash US$ 0,14 US$ 0,28 US$ 0,42 DeepSeek deepseek-v4-pro US$ 0,435 US$ 0,87 US$ 1.305 DeepSeek MiniMax-M3 US$ 0,30 US$ 1,20 US$ 1,50 MiniMax Qwen3.7-Plus US$ 0,40 US$ 1,60 US$ 2,00 Nuvem Alibaba Gêmeos 3.1 Flash-Lite US$ 0,25 US$ 1,50 US$ 1,75 Google MiMo V2.5 US$ 0,40 US$ 2,00 US$ 2,40 Xiaomi MiMo Grok 4.3 baixo contexto US$ 1,25 US$ 2,50 US$ 3,75 xAI GLM-5 US$ 1,00 US$ 3,20 US$ 4,20 Z.ai Kimi-K2.6 US$ 0,95 US$ 4,00 US$ 4,95 Moonshot/Kimi GLM-5.1 US$ 1,40 US$ 4,40 US$ 5,80 Z.ai Alto contexto do Grok 4.3 US$ 2,50 US$ 5,00 US$ 7,50 xAI Qwen3.7-Máx. US$ 2,50 US$ 7,50 US$ 10,00 Nuvem Alibaba Gêmeos 3.5 Flash US$ 1,50 US$ 9,00 US$ 10,50 Google Pré-visualização do Gemini 3.1 Pro ≤200K US$ 2,00 US$ 12,00 US$ 14,00 Google GPT-5.4 US$ 2,50 US$ 15,00 US$ 17,50 OpenAI Pré-visualização do Gemini 3.1 Pro> 200K US$ 4,00 US$ 18,00 US$ 22,00 Google Fechar Trabalho 4.8 US$ 5,00 US$ 25,00 US$ 30,00 Antrópico GPT-5.5 US$ 5,00 US$ 30,00 US$ 35,00 OpenAI Manter a continuidade durante loops complexos de execução de ferramentas Para os decisores técnicos que implementam agentes autónomos, o principal estrangulamento raramente tem sido a inteligência inicial do modelo. Em vez disso, é decadência do estado—a tendência de uma estrutura de agente perder sua trajetória analítica em tarefas de longo horizonte e múltiplas etapas. Qwen3.7-Plus aborda essa vulnerabilidade arquitetônica por meio de uma abordagem combinada para gerenciamento de contexto e raciocínio de preservação do estado. O modelo vem com um Janela de contexto de 1 milhão de tokens e aloca até 256 mil tokens especificamente para processamento interno da cadeia de pensamento. Para contextualizar essa capacidade, imagine um agente automatizado de migração para a nuvem: ele pode ingerir uma base de código inteira, mapear as dependências e gastar milhares de tokens avaliando discretamente casos extremos antes de executar uma única linha de script bash. Crucialmente, a API expõe um parâmetro chamado ‘preserve_thinking.’ Em todo o ecossistema do Alibaba, a capacidade serve como uma ponte arquitetônica padronizada, em vez de uma vantagem escalonada. O Alibaba introduziu o recurso durante a geração anterior do Qwen 3.6, integrando-o tanto no modelo aberto Qwen3.6-27B quanto nos modelos proprietários Max. Basicamente, o parâmetro opera no nível da API e do modelo para reter informações internas <think> blocos em turnos de conversação contínuos. Essa continuidade estrutural resolve um gargalo crítico para desenvolvedores que projetam tarefas de longo prazo. Ao manter esses loops lógicos internos intactos, o recurso evita que o modelo abandone seu contexto ou recalcule desnecessariamente seu histórico em cache no meio de uma operação. Quando um modelo executa atribuições de codificação agente complexas e em várias etapas, essa retenção permite que o sistema mantenha sua linha de pensamento original sem perder o enredo ou esquecer a lógica subjacente de suas ações anteriores. A Alibaba continua longe de ser a única a reconhecer esta necessidade técnica, uma vez que o conceito subjacente dita agora a arquitectura de quase todos os principais laboratórios de inteligência artificial. A Anthropic implanta exatamente esse recurso sob o nome "Pensamento Estendido" por seus modelos avançados, incluindo o mais recente Claude Opus 4.8. Essa estrutura exige que os desenvolvedores alimentem blocos de pensamento não modificados diretamente na API nos turnos subsequentes para manter uma cadeia ininterrupta de raciocínio. OpenAI enfrenta o mesmo desafio por meio de um mecanismo de retorno de raciocínio criptografado para modelos como GPT-5.5. Dentro do ecossistema OpenAI, os desenvolvedores devem retornar itens de raciocínio específicos gerados junto com chamadas de função anteriores, garantindo que o modelo se lembre explicitamente da lógica por trás das execuções de suas ferramentas. Em última análise, preserve_thinking simplesmente representa a terminologia do Alibaba para o que rapidamente se tornou a aposta indiscutível do raciocínio moderno multivoltas. Os benchmarks mostram um modelo competitivo, mas de última geração Nas métricas de capacidade bruta, essa arquitetura profunda se traduz em ganhos estruturais em benchmarks multimodais e de agência. No entanto, ainda fica abaixo de muitas das gerações anteriores e líderes de modelos proprietários dos EUA, como Claude Opus 4.6 da Anthropic e GPT-5.4 da OpenAI. Sobre Banco Terminal 2.0-Terminusque mede a capacidade de um modelo de executar código real em nível de terminal com segurança e iterativamente, pontuou Qwen3.7-Plus 70,3superando DeepSeek-V4-Pro Max (67,9) e Gemini-3.1 Pro (63,5). Em benchmarks de visão computacional que exigem compreensão localizada da interface, como TelaSpot Proo modelo bateu 79,0ultrapassando significativamente os destaques da indústria legada, como GPT-5.4 (xhigh) com 67,4 e Claude-Opus-4.6 com 49,5. Métricas

Leia Mais »