Strategie6 Min.20. Mai 2026

Google bringt Gemini 3.5 Flash für 1,50 USD pro Million Tokens auf den Markt und greift die Kosten für Unternehmensinferenz an

Escritório executivo no Vale do Silício pela manhã com cadeira Eames, caderno aberto com anotações manuscritas, xícara de café fumegante e monitor lateral mostrando keynote tech fora de foco

Das von Sundar Pichai auf der I/O 2026 vorgestellte Modell übertrifft Claude Opus 4.7 und GPT-5.5 in agentischen Benchmarks, ist 50 % günstiger in der Eingabe als die Vorgängergeneration und öffnet die Beta-Version des autonomen Agenten Spark für AI Ultra-Abonnenten.

Google hat gestern (19.) Gemini 3.5 Flash als zentrales Element seines Wettbewerbs um Unternehmens-IA-Workloads positioniert, und diesmal war das zentrale Argument der Preis. In einer Präsentation auf der Google I/O 2026 in Mountain View stellte Sundar Pichai das Modell für 1,50 USD pro Million Eingangstokens und 9,00 USD pro Million Ausgangstokens vor, mit einem Eingabecache für 0,15 USD. Diese Zahlen bringen Flash 3.5 auf einen direkten Kollisionskurs mit dem Claude Opus 4.7 von Anthropic, das 5 USD für den Input und 25 USD für den Output pro Million kostet, und mit GPT-5 von OpenAI zu 1,25 USD für den Input und 10 USD für den Output, aber mit dem entscheidenden Wettbewerbsvorteil in den Benchmarks: Flash 3.5 übertrifft beide im MCP Atlas und in den meisten agentischen Bewertungs-Suiten, wie die von Google veröffentlichten Zahlen zeigen.

Die interne Lesart des eigenen Portfolios von Google ist ebenfalls aggressiv. Das Standard-Orchestrierungsmodell der Agenten des Unternehmens ist 50 % günstiger bei der Eingabe und 40 % günstiger bei der Ausgabe im Vergleich zur vorherigen Generation von Flash, mit einem überlegenen Benchmark-Profil. Pichai nutzte die Metrik, um die These einer Massenmigration von Lasten zu unterstützen: Unternehmen, die täglich ein Billionen Tokens verarbeiten, können jährlich etwa eine Milliarde Dollar sparen, wenn sie 80 % der Lasten auf 3.5 Flash übertragen, so die auf der Bühne präsentierte Berechnung. Die Botschaft hat einen klaren Adressaten. In früheren Zyklen war das Kaufargument für das Modell die rohe Leistung. Jetzt ist das Argument die Stückkosten für Inferenz im großen Maßstab, ein Bereich, in dem Google mit proprietärer Hardware, insbesondere den gemeinsam mit den Modellen entwickelten TPU 8T und 8I-Generationen, einen Vorteil hat.

Die sofortige Reaktion der technischen Gemeinschaft hat diesen Schritt anerkannt. Simon Willison, eine Referenz in der technischen Analyse von Modellen, bemerkte am selben Tag, dass Flash 3.5 in absoluten Zahlen teurer ist als die vorherige Generation, dass Google jedoch plant, es für alles zu nutzen, wobei die relevante Vergleichsbasis nicht gegen Flash 3.0, sondern gegen die Pro-Stufen der Konkurrenz liegt. Diese Lesart passt zur Strategie von Mountain View: Die Wahrnehmung von einem kleinen, günstigen Modell zu einem hochmodernen Modell zum Preis von Flash zu verschieben.

Spark betritt das Rennen um persönliche Agenten

Neben Flash hat Google Gemini Spark vorgestellt, das als aktiver Partner beschrieben wird, der im Auftrag des Benutzers und unter dessen Anleitung arbeitet. Im Gegensatz zu Assistenten, die Fragen beantworten, läuft Spark auf dedizierten virtuellen Maschinen in der Google Cloud und hält die Ausführung im Hintergrund aufrecht, auch wenn der Benutzer nicht mehr verbunden ist. Die Integration mit externen Tools nutzt das MCP-Protokoll, mit einer Unterstützung für Dritte, die in den kommenden Monaten erwartet wird.

Die Freigabe beginnt diese Woche für ausgewählte Tester. Abonnenten des AI Ultra-Plans in den USA erhalten nächste Woche die Beta-Version, mit Integration in Chrome noch diesen Sommer und in die Halo-Oberfläche von Android bis Ende des Jahres. Die Wahl des Kanals signalisiert eine Priorität: Spark entsteht als Premium-Produkt, das auf diejenigen abzielt, die bereits für die oberste Ebene des Gemini-Ökosystems bezahlen, und wird erst später in Unternehmensversionen innerhalb von Gemini Enterprise verfügbar gemacht. Für Google ist es der erste ernsthafte Versuch, den IA-Assistenten in eine persistente Ausführungsschicht zu transformieren, ein Gebiet, das bisher von vertikalen Angeboten wie Operators von OpenAI und Computer Use von Claude dominiert wurde.

Kommodifizierung erreicht die Modellebene

Das Szenario lässt die mittlere Ebene des Marktes in einer unbequemen Position. Anbieter, die API-DIENSTLEISTUNGEN mit Preisen nahe den Kosten von Flash 3.0 verkaufen, verlieren über Nacht ihre Marge. Beratungsunternehmen, die nach der Kapazität des Modells Preise festlegen, anstatt nach vollständiger Ausführung, müssen ihre Vorschläge in bereits laufenden RFPs überarbeiten. Die Lesart für CIOs im Budgetzyklus für das zweite Halbjahr ist klar: Die Kosten pro Modellanfrage sind nicht mehr eine kritische Variable für Architektur von großangelegten IA-Lösungen, und die Diskussion verlagert sich auf die Latenz von Tools, die Beobachtbarkeit von Agenten und die Governance von sensiblen Daten. Pichai fasste die Phase zusammen, in der die Menschen den Wert der Produkte sehen wollen, die sie jeden Tag verwenden. Der Satz definiert den Wettbewerb von 2026 weniger nach den Fähigkeiten des Modells und mehr durch ihre Übersetzung in überprüfbare Betriebseinsparungen.