Estratégia6 min20 de maio de 2026

Google lança Gemini 3.5 Flash a US$ 1,50 por milhão de tokens e ataca custo da inferência corporativa

Escritório executivo no Vale do Silício pela manhã com cadeira Eames, caderno aberto com anotações manuscritas, xícara de café fumegante e monitor lateral mostrando keynote tech fora de foco

Modelo apresentado por Sundar Pichai no I/O 2026 supera Claude Opus 4.7 e GPT-5.5 em benchmarks agentic, sai 50% mais barato em input que a geração anterior e abre beta do agente autônomo Spark para assinantes AI Ultra.

O Google posicionou ontem (19) o Gemini 3.5 Flash como o vetor central da sua disputa por workloads corporativos de IA, e desta vez o argumento central foi preço. Em apresentação no Google I/O 2026, em Mountain View, Sundar Pichai apresentou o modelo a US$ 1,50 por milhão de tokens de entrada e US$ 9,00 por milhão de tokens de saída, com cache de input a US$ 0,15. Os números colocam o Flash 3.5 em rota de colisão direta com o Claude Opus 4.7 da Anthropic, que custa US$ 5 de input e US$ 25 de output por milhão, e com o GPT-5 da OpenAI a US$ 1,25 de input e US$ 10 de output, mas com a vantagem competitiva crucial em benchmarks: o Flash 3.5 supera ambos no MCP Atlas e na maioria das suítes de avaliação agentic, conforme os números divulgados pelo Google.

A leitura interna ao próprio portfólio do Google é igualmente agressiva. O default de orquestração de agentes da empresa ficou 50% mais barato em input e 40% mais barato em output em relação à geração anterior do Flash, com perfil de benchmark superior. Pichai usou a métrica para sustentar a tese de migração em massa de cargas: empresas que processam um trilhão de tokens por dia podem economizar cerca de um bilhão de dólares por ano se transferirem 80% das cargas para o 3.5 Flash, conforme o cálculo apresentado no palco. O recado tem destinatário claro. Em ciclos anteriores, o argumento de compra de modelo era performance bruta. Agora, o argumento passou a ser custo unitário de inferência em escala, terreno onde o Google opera com vantagem de hardware proprietário, em particular as gerações TPU 8T e 8I co-projetadas com os modelos.

A reação imediata da comunidade técnica reconheceu o movimento. Simon Willison, referência em análise técnica de modelos, observou no mesmo dia que o Flash 3.5 é mais caro do que a geração anterior em termos absolutos, mas que o Google planeja usá-lo para tudo, colocando a comparação relevante não contra o Flash 3.0 e sim contra os tiers Pro da concorrência. É leitura coerente com a estratégia de Mountain View: deslocar a percepção de modelo barato pequeno para modelo de fronteira ao preço de Flash.

Spark entra na corrida dos agentes pessoais

Ao lado do Flash, o Google lançou o Gemini Spark, descrito como parceiro ativo que executa trabalho em nome do usuário e sob sua direção. Diferente de assistentes que respondem a perguntas, o Spark roda em máquinas virtuais dedicadas no Google Cloud e mantém execução em background mesmo quando o usuário desconecta. A integração com ferramentas externas usa o protocolo MCP, com suporte a terceiros previsto para os próximos meses.

A liberação começa nesta semana para testers selecionados. Assinantes do plano AI Ultra nos EUA recebem o beta na próxima semana, com integração ao Chrome ainda neste verão americano e à interface Halo do Android até o fim do ano. A escolha de canal sinaliza prioridade: o Spark nasce como produto premium voltado a quem já paga pela camada superior do ecossistema Gemini, e só depois desce para versões corporativas dentro do Gemini Enterprise. Para o Google, é a primeira tentativa séria de transformar o assistente de IA em camada de execução persistente, território até aqui dominado por ofertas verticais como Operator da OpenAI e Computer Use do Claude.

Comoditização chega à camada de modelo

O cenário deixa o middle layer do mercado em posição desconfortável. Provedores que vendem APIs intermediárias com preço próximo ao custo do Flash 3.0 perdem margem da noite para o dia. Consultorias que precificam por capacidade do modelo em vez de execução completa precisam reformular propostas em RFPs já em andamento. A leitura para CIOs em ciclo de orçamento de segundo semestre é direta: o custo por consulta de modelo deixou de ser variável crítica para arquitetura de soluções de IA em larga escala, e a discussão move-se para latência de tools, observabilidade de agente e governança de dados sensíveis. Pichai resumiu a fase como aquela em que as pessoas querem ver o valor nos produtos que usam todo dia. A frase define a disputa de 2026 menos pela capacidade do modelo e mais por sua tradução em economia operacional verificável.