Estrategia6 min20 de mayo de 2026

Google lanza Gemini 3.5 Flash a US$ 1.50 por millón de tokens y ataca el costo de la inferencia corporativa

Escritório executivo no Vale do Silício pela manhã com cadeira Eames, caderno aberto com anotações manuscritas, xícara de café fumegante e monitor lateral mostrando keynote tech fora de foco

Modelo presentado por Sundar Pichai en I/O 2026 supera Claude Opus 4.7 y GPT-5.5 en benchmarks agentic, sale 50% más barato en input que la generación anterior y abre beta del agente autónomo Spark para suscriptores AI Ultra.

Google posicionó ayer (19) el Gemini 3.5 Flash como el vector central de su disputa por workloads corporativos de IA, y esta vez el argumento central fue el precio. En la presentación en Google I/O 2026, en Mountain View, Sundar Pichai presentó el modelo a US$ 1.50 por millón de tokens de entrada y US$ 9.00 por millón de tokens de salida, con caché de entrada a US$ 0.15. Los números colocan el Flash 3.5 en trayectoria de colisión directa con el Claude Opus 4.7 de Anthropic, que cuesta US$ 5 de entrada y US$ 25 de salida por millón, y con el GPT-5 de OpenAI a US$ 1.25 de entrada y US$ 10 de salida, pero con la ventaja competitiva crucial en benchmarks: el Flash 3.5 supera a ambos en el MCP Atlas y en la mayoría de las suites de evaluación agentic, según los números divulgados por Google.

La lectura interna del propio portafolio de Google es igualmente agresiva. El default de orquestación de agentes de la empresa se volvió 50% más barato en entrada y 40% más barato en salida en relación con la generación anterior del Flash, con un perfil de benchmark superior. Pichai utilizó la métrica para sostener la tesis de migración en masa de cargas: empresas que procesan un billón de tokens por día pueden ahorrar alrededor de mil millones de dólares por año si transfieren el 80% de las cargas al 3.5 Flash, según el cálculo presentado en el escenario. El mensaje tiene destinatario claro. En ciclos anteriores, el argumento de compra de modelo era performance bruta. Ahora, el argumento pasó a ser costo unitario de inferencia a escala, terreno donde Google opera con ventaja de hardware propietario, en particular las generaciones TPU 8T y 8I co-diseñadas con los modelos.

La reacción inmediata de la comunidad técnica reconoció el movimiento. Simon Willison, referencia en análisis técnico de modelos, observó el mismo día que el Flash 3.5 es más caro que la generación anterior en términos absolutos, pero que Google planea usarlo para todo, colocando la comparación relevante no contra el Flash 3.0 sino contra los tiers Pro de la competencia. Es una lectura coherente con la estrategia de Mountain View: desplazar la percepción de modelo barato pequeño a modelo de frontera al precio de Flash.

Spark entra en la carrera de los agentes personales

Junto al Flash, Google lanzó el Gemini Spark, descrito como un compañero activo que ejecuta trabajo en nombre del usuario y bajo su dirección. Diferente de asistentes que responden preguntas, el Spark corre en máquinas virtuales dedicadas en Google Cloud y mantiene ejecución en segundo plano incluso cuando el usuario se desconecta. La integración con herramientas externas usa el protocolo MCP, con soporte a terceros previsto para los próximos meses.

La liberación comienza esta semana para testers seleccionados. Suscriptores del plan AI Ultra en EE.UU. recibirán el beta la próxima semana, con integración a Chrome aún en este verano americano y a la interfaz Halo de Android hasta finales de año. La elección del canal señala prioridad: el Spark nace como producto premium dirigido a quienes ya pagan por la capa superior del ecosistema Gemini, y solo después desciende a versiones corporativas dentro de Gemini Enterprise. Para Google, es el primer intento serio de transformar el asistente de IA en capa de ejecución persistente, territorio hasta ahora dominado por ofertas verticales como Operator de OpenAI y Computer Use de Claude.

Comoditización llega a la capa de modelo

El escenario deja la capa media del mercado en una posición incómoda. Proveedores que venden APIs intermedias con precios cercanos al costo del Flash 3.0 pierden margen de la noche a la mañana. Consultoras que valorizan por capacidad del modelo en lugar de ejecución completa necesitan reformular propuestas en RFPs ya en curso. La lectura para CIOs en ciclo de presupuesto de segundo semestre es directa: el costo por consulta de modelo dejó de ser variable crítica para arquitectura de soluciones de IA a gran escala, y la discusión se mueve hacia latencia de herramientas, observabilidad de agente y gobernanza de datos sensibles. Pichai resumió la fase como aquella en la que las personas quieren ver el valor en los productos que utilizan todos los días. La frase define la disputa de 2026 menos por la capacidad del modelo y más por su traducción en economía operacional verificable.