Gemini 3 Flash chega com custos e latência reduzidos – uma combinação poderosa para empresas

Gemini 3 Flash chega com custos e latência reduzidos – uma combinação poderosa para empresas

As empresas agora podem aproveitar o poder de um grande modelo de linguagem próximo ao Gemini 3 Pro de última geração do Google, mas por uma fração do custo e com maior velocidade, graças ao recém-lançado Gemini 3 Flash.

O modelo se junta aos carros-chefe Gemini 3 Pro, Gemini 3 Deep Think e Gemini Agent, todos anunciados e lançados no mês passado.

O Gemini 3 Flash, agora disponível no Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio e em versão prévia no Vertex AI, processa informações quase em tempo real e ajuda a criar aplicativos de agente rápidos e responsivos.

A empresa disse em uma postagem no blog que o Gemini 3 Flash “baseia-se na série de modelos que os desenvolvedores e empresas já amam, otimizada para fluxos de trabalho de alta frequência que exigem velocidade, sem sacrificar a qualidade.

O modelo também é o padrão para o Modo AI na Pesquisa Google e no aplicativo Gemini.

Tulsee Doshi, diretor sênior de gerenciamento de produtos da equipe Gemini, disse em uma postagem separada no blog que o modelo “demonstra que velocidade e escala não precisam ser feitas às custas da inteligência”.

“O Gemini 3 Flash foi feito para desenvolvimento iterativo, oferecendo desempenho de codificação de nível Pro do Gemini 3 com baixa latência – é capaz de raciocinar e resolver tarefas rapidamente em fluxos de trabalho de alta frequência”, disse Doshi. “Ele atinge um equilíbrio ideal para codificação de agentes, sistemas prontos para produção e aplicativos interativos responsivos.”

A adoção precoce por empresas especializadas comprova a confiabilidade do modelo em áreas de alto risco. Harvey, uma plataforma de IA para escritórios de advocacia, relatou um salto de 7% no raciocínio em seu ‘BigLaw Bench’ interno, enquanto a Resemble AI descobriu que o Gemini 3 Flash poderia processar dados forenses complexos para detecção de deepfake 4x mais rápido do que o Gemini 2.5 Pro. Estes não são apenas ganhos de velocidade; eles estão possibilitando fluxos de trabalho “quase em tempo real” que antes eram impossíveis.

Mais eficiente com menor custo

Os criadores de IA empresarial tornaram-se mais conscientes do custo de execução de modelos de IA, especialmente à medida que tentam convencer as partes interessadas a investir mais orçamento em fluxos de trabalho de agentes executados em modelos caros. As organizações recorreram a modelos menores ou destilados, concentrando-se em modelos abertos ou outras pesquisas e estimulando técnicas para ajudar a gerenciar os custos inchados de IA.

Para as empresas, a maior proposta de valor do Gemini 3 Flash é que ele oferece o mesmo nível de recursos multimodais avançados, como análise de vídeo complexa e extração de dados, que seus equivalentes maiores do Gemini, mas é muito mais rápido e barato.

Embora os materiais internos do Google destaquem um aumento de velocidade de 3x em relação à série 2.5 Pro, os dados da empresa independente de benchmarking Artificial Analysis adicionam uma camada de nuances cruciais.

Nos testes de pré-lançamento desta última organização, o Gemini 3 Flash Preview registrou uma taxa de transferência bruta de 218 tokens de saída por segundo. Isso o torna 22% mais lento do que o Gemini 2.5 Flash ‘sem raciocínio’ anterior, mas ainda é significativamente mais rápido do que rivais, incluindo o GPT-5.1 high da OpenAI (125 t/s) e o raciocínio DeepSeek V3.2 (30 t/s).

Mais notavelmente, a Análise Artificial coroou o Gemini 3 Flash como o novo líder em seu benchmark de conhecimento AA-Omniscience, onde alcançou a mais alta precisão de conhecimento de qualquer modelo testado até o momento. No entanto, esta inteligência vem com um “imposto de raciocínio”: o modelo mais do que duplica a sua utilização de tokens em comparação com a série Flash 2,5 ao lidar com índices complexos.

Essa alta densidade de tokens é compensada pelos preços agressivos do Google: ao acessar por meio da API Gemini, o Gemini 3 Flash custa US$ 0,50 por 1 milhão de tokens de entrada, em comparação com US$ 1,25/1 milhão de tokens de entrada para Gemini 2.5 Pro e US$ 3/1 milhão de tokens de saída, em comparação com US$ 10/1 milhão de tokens de saída para Gemini 2.5 Pro. Isso permite que o Gemini 3 Flash reivindique o título de modelo com melhor custo-benefício para seu nível de inteligência, apesar de ser um dos modelos mais “falantes” em termos de volume bruto de tokens. Veja como ele se compara às ofertas rivais de LLM:

Modelo

Entrada (/1M)

Saída (/1M)

Custo total

Fonte

Qwen3 Turbo

US$ 0,05

US$ 0,20

US$ 0,25

Nuvem Alibaba

Grok 4.1 Rápido (raciocínio)

US$ 0,20

US$ 0,50

US$ 0,70

xAI

Grok 4.1 Rápido (sem raciocínio)

US$ 0,20

US$ 0,50

US$ 0,70

xAI

deepseek-chat (V3.2-Exp)

US$ 0,28

US$ 0,42

US$ 0,70

DeepSeek

raciocinador de busca profunda (V3.2-Exp)

US$ 0,28

US$ 0,42

US$ 0,70

DeepSeek

Qwen 3 Plus

US$ 0,40

US$ 1,20

US$ 1,60

Nuvem Alibaba

ERNIE 5.0

US$ 0,85

US$ 3,40

US$ 4,25

Qian Fan

Pré-visualização em Flash do Gêmeos 3

US$ 0,50

US$ 3,00

US$ 3,50

Google

Claude Haiku 4.5

US$ 1,00

US$ 5,00

US$ 6,00

Antrópico

Qwen Max

US$ 1,60

US$ 6,40

US$ 8,00

Nuvem Alibaba

Gêmeos 3 Pro (≤200K)

US$ 2,00

US$ 12,00

US$ 14,00

Google

GPT-5.2

US$ 1,75

US$ 14,00

US$ 15,75

OpenAI

Soneto de Claude 4.5

US$ 3,00

US$ 15,00

US$ 18,00

Antrópico

Gêmeos 3 Pro (>200K)

US$ 4,00

US$ 18,00

US$ 22,00

Google

Fechar Trabalho 4.5

US$ 5,00

US$ 25,00

US$ 30,00

Antrópico

GPT-5.2 Pró

US$ 21,00

US$ 168,00

US$ 189,00

OpenAI

Mais maneiras de economizar

Mas os desenvolvedores e usuários corporativos podem reduzir ainda mais os custos, eliminando o atraso que a maioria dos modelos maiores costuma ter, o que aumenta o uso de tokens. O Google disse que o modelo “é capaz de modular o quanto pensa”, de modo que usa mais pensamento e, portanto, mais tokens para tarefas mais complexas do que para solicitações rápidas. A empresa observou que o Gemini 3 Flash usa 30% menos tokens do que o Gemini 2.5 Pro.

Para equilibrar esse novo poder de raciocínio com requisitos rígidos de latência corporativa, o Google introduziu um parâmetro de “Nível de pensamento”. Os desenvolvedores podem alternar entre ‘Baixo’ – para minimizar o custo e a latência para tarefas simples de chat – e ‘Alto’ – para maximizar a profundidade do raciocínio para extração de dados complexos. Esse controle granular permite que as equipes criem aplicativos de “velocidade variável” que só consomem “tokens de pensamento” caros quando um problema realmente exige nível de doutorado.

A história económica vai além dos simples preços simbólicos. Com a inclusão padrão do Context Caching, as empresas que processam conjuntos de dados estáticos e massivos — como bibliotecas jurídicas inteiras ou repositórios de base de código — podem ver uma redução de 90% nos custos de consultas repetidas. Quando combinado com o desconto de 50% da API Batch, o custo total de propriedade de um agente com tecnologia Gemini cai significativamente abaixo do limite dos modelos de fronteira concorrentes

“O Gemini 3 Flash oferece desempenho excepcional em tarefas de codificação e de agente combinado com um preço mais baixo, permitindo que as equipes implementem custos de raciocínio sofisticados em processos de alto volume sem encontrar barreiras”, disse o Google.

Ao oferecer um modelo que proporciona um forte desempenho multimodal a um preço mais acessível, a Google defende que as empresas preocupadas em controlar os seus gastos com IA devem escolher os seus modelos, especialmente o Gemini 3 Flash.

Forte desempenho de referência

Mas como o Gemini 3 Flash se compara a outros modelos em termos de desempenho?

Doshi disse que o modelo alcançou uma pontuação de 78% no teste de benchmark SWE-Bench Verified para agentes de codificação, superando tanto a família Gemini 2.5 anterior quanto o próprio Gemini 3 Pro mais recente!

Para as empresas, isso significa que tarefas de manutenção de software de alto volume e correção de bugs podem agora ser transferidas para um modelo que é mais rápido e mais barato do que os modelos principais anteriores, sem degradação na qualidade do código.

O modelo também teve um forte desempenho em outros benchmarks, marcando 81,2% no benchmark MMMU Pro, comparável ao Gemini 3 Pro.

Embora a maioria dos modelos do tipo Flash sejam explicitamente otimizados para tarefas curtas e rápidas, como geração de código, o Google afirma que o desempenho do Gemini 3 Flash “em raciocínio, uso de ferramentas e recursos multimodais é ideal para desenvolvedores que desejam fazer análises de vídeo mais complexas, extração de dados e perguntas e respostas visuais, o que significa que ele pode permitir aplicativos mais inteligentes – como assistentes em jogos ou experimentos de teste A/B – que exigem respostas rápidas e raciocínio profundo”.

Primeiras impressões dos primeiros usuários

Até agora, os primeiros usuários ficaram bastante impressionados com o modelo, especialmente com seu desempenho de referência.

O que isso significa para o uso de IA empresarial

Com o Gemini 3 Flash agora servindo como mecanismo padrão na Pesquisa Google e no aplicativo Gemini, estamos testemunhando o "Flashificação" de inteligência de fronteira. Ao fazer do raciocínio de nível Pro a nova linha de base, o Google está armando uma armadilha para os operadores históricos mais lentos.

A integração em plataformas como o Google Antigravity sugere que o Google não está apenas vendendo um modelo; está vendendo a infraestrutura para a empresa autônoma.

À medida que os desenvolvedores começam a trabalhar com velocidades 3x mais rápidas e um desconto de 90% no cache de contexto, o "Gêmeos primeiro" a estratégia se torna um argumento financeiro convincente. Na corrida de alta velocidade pelo domínio da IA, Gemini 3 Flash pode ser o modelo que finalmente vira "codificação de vibração" de um hobby experimental para uma realidade pronta para produção.



Fonte ==> Cyberseo

Relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *