OpenAI und Broadcom stellen Jalapeño vor, eigene ASIC mit 50 % Kostenvorteil gegenüber GPUs

Der erste Chip von OpenAI wurde innerhalb von neun Monaten vom Design bis zur Produktion entwickelt und wird voraussichtlich ab 2026 Inferenz-Workloads betreiben, was Hock Tan als den schnellsten Zyklus bezeichnet hat, der jemals bei fortschrittlichen ASICs gesehen wurde.
OpenAI und Broadcom haben am Mittwoch Jalapeño vorgestellt, den ersten KI-Beschleuniger, der von OpenAI selbst entworfen wurde und sich auf Inferenz-Workloads für Sprachmodelle konzentriert. Der Chip ist ein ASIC, der für eine einzige Klasse von Lasten entwickelt wurde, und hat nur neun Monate vom ursprünglichen Design bis zur Produktion benötigt, was Hock Tan, CEO von Broadcom, als den schnellsten Zyklus bezeichnete, der jemals in der Fortentwicklung eines leistungsstarken Halbleiters erreicht wurde. Die ersten Einheiten werden bis Ende 2026 in Betrieb genommen, als erster Schritt einer Plattform über mehrere Generationen.
Die Zahl, die für den CIO entscheidend ist, ist eine andere. In einem Interview nach der Ankündigung erklärte Tan, dass erste Tests eine Kostenersparnis von etwa 50 % im Vergleich zu herkömmlichen KI-GPUs für die gleiche Inferenzaufgabe anzeigen. Als ASIC versucht Jalapeño nicht, mit der Flexibilität einer GPU zu konkurrieren: er deckt weniger Anwendungsfälle ab, bietet aber eine Leistung pro Watt, die laut dem Unternehmen das Beste vom Besten erheblich übertrifft. Für einen Betrieb, der quartalsweise Milliarden in Rechenleistung ausgibt, um ChatGPT in großem Maßstab zu bedienen, würde die Halbierung der Stückkosten der Inferenzschicht die Margenberechnung der kostenpflichtigen Produkte von OpenAI verändern, bevor irgendein externer Fahrplan angepasst wird.
Warum es wichtig ist, dass der Zyklus nur neun Monate dauerte
Ein ASIC dieser Größenordnung benötigt normalerweise zwischen 18 und 24 Monaten von RTL bis zum validierten Silizium. Die neun Monate für Jalapeño waren laut beiden Unternehmen möglich, weil OpenAI seine eigenen Modelle genutzt hat, um den Design- und Optimierungsprozess zu beschleunigen, insbesondere bei der Überprüfung und Erkundung des Designraums. Dieser Aspekt ist nicht trivial: Er bedeutet, dass der Zeitvorteil beim Markteintritt, der historisch die teuerste Barriere für den Markteintritt bei Beschleunigern war, denen zugutekommt, die eigene Modelle betreiben und über symbolische Rechenleistung verfügen. Nvidia behält die Vorteile bei architektonischen Anwendungsfällen, verliert jedoch in dieser neuen Dimension den Wettbewerb um vertikalisierten und entbehrlichen Silizium.
Broadcom tritt als Partner in der Umsetzung auf. Das Unternehmen liefert die Expertise in der physischen Implementierung, die Herstellung über TSMC und den Netzwerk- und SerDes-IP-Stack, der Tausende dieser Teile in einem konsistenten Inferenz-Pod verbindet. Der Vertrag folgt einem Muster, das Broadcom bereits mit Google und Meta hat, erhält jedoch zum ersten Mal einen Kunden, dessen umsetzbarer Geschäftsanteil fast ausschließlich von dem Silizium abhängt, das er kauft.
Wer durch Jalapeño verliert
Nvidia verliert weniger, als die Schlagzeile vermuten lässt, und mehr als es die eigene Argumentation nahelegt. Jalapeño ersetzt nicht das Training, das weiterhin von GPUs H100, H200 und Blackwell abhängt. Aber Inferenz ist die Seite der Last, die mit der Produktanpassung wächst und bei der die von Tan genannten 50 % Einsparung sich mit jedem generierten Token summieren. Für Nvidia ist die wichtigere interne Lesart, dass der erklärte größte Kunde damit begonnen hat, einen Teil seiner eigenen Inferenzarchitektur extern zu kaufen, und das verändert die Berechnung über die Dauer des Umsatzsupersyklus für Rechenzentren.
AMD und Intel sind noch stärker exponiert. Sowohl die MI400 als auch die Gaudi 3 verkaufen das Argument eines besseren Kosten-Nutzen-Verhältnisses bei der Inferenz. Diese Argumentation schrumpft gegenüber einer OpenAI, die in der Lage ist, innerhalb eines Zeitraums von neun Monaten ihre eigenen ASICs zu entwerfen und die Gesamtkosten halbiert, ohne das Design der Architektur auszulagern.
Globale Perspektive: Zwei Märkte, in denen der Effekt schnell ankommt
Im Vereinigten Königreich hält OpenAI das zweitgrößte Ingenieurteams außerhalb der Vereinigten Staaten, mit einem Büro in London, das unter anderem Unternehmensanwendungen gewidmet ist. Banken wie Barclays und HSBC, die bereits dedizierte ChatGPT Enterprise-Inferenzkapazitäten für interne Abläufe in Anspruch genommen haben, sollten sehen, wie Jalapeño zuerst die Kosten pro Token in den Unternehmensplänen senkt, bevor es zu endgültigen Kunden gelangt. In Singapur, einem regionalen Hub, in dem OpenAI die Nachfrage aus dem südostasiatischen Raum bearbeitet, verändert sich die wirtschaftliche Machbarkeit von kostenpflichtigen Abonnements für Regierungen und Zentralbanken, die eine Preisgestaltung von 2025 abgelehnt haben, in denselben Bewegungen.
Brasilien spürt dies sekundär durch die Weitergabe. Itaú, Bradesco, Stone und die KI-Betriebe von Cosan betreiben Inferenz über OpenAI innerhalb von BPO-Pipelines und im Kundenservice; die Hälfte der Kosten pro Token repräsentiert eine Halbierung einer Kostenkurve, die das Hauptargument der lokalen CTOs war, um Verträge zu verlangsamen.
Die nicht angekündigte Produktentscheidung von Mittwoch ist die gesamte Ankündigung wert: OpenAI hat aufgehört, exklusive Kundin ihrer Chip-Lieferanten zu sein und ist teilweise zu einer Konkurrentin dieser geworden.