OpenAI e Broadcom estreiam Jalapeño, ASIC próprio com 50% de vantagem de custo sobre GPU

Primeiro chip projetado pela OpenAI foi do desenho à fita em nove meses e começa a rodar workloads de inferência ainda em 2026, no que Hock Tan classificou como o ciclo mais rápido já visto em ASICs avançados.
A OpenAI e a Broadcom apresentaram nesta quarta-feira o Jalapeño, primeiro acelerador de IA projetado pela própria OpenAI e dedicado a workloads de inferência de modelos de linguagem. O chip é um ASIC, projetado para uma única classe de cargas, e foi do desenho inicial à fita em nove meses, em um ritmo que Hock Tan, CEO da Broadcom, descreveu como o ciclo mais rápido já realizado num semicondutor avançado de alto desempenho. As primeiras unidades começam a operar até o fim de 2026, como passo inicial de uma plataforma de múltiplas gerações.
O número que pesa para o CIO é outro. Em entrevista após o anúncio, Tan afirmou que os testes iniciais indicam economia de custo de cerca de 50% em relação às GPUs tradicionais de IA para a mesma tarefa de inferência. Como ASIC, o Jalapeño não tenta competir com a flexibilidade de uma GPU: cobre menos casos de uso, mas com performance por watt que, segundo a empresa, supera substancialmente o estado da arte. Para uma operação que gasta bilhões em compute por trimestre apenas para servir ChatGPT em escala, cortar metade do custo unitário da camada de inferência muda a equação de margem dos produtos pagos da OpenAI antes de mudar qualquer roadmap externo.
Por que importa que o ciclo tenha sido de nove meses
Um ASIC desse porte costuma levar entre 18 e 24 meses do RTL ao silício validado. Os nove meses do Jalapeño, segundo as duas empresas, foram possíveis porque a OpenAI usou seus próprios modelos para acelerar etapas de design e otimização, em particular verificação e exploração de espaço de projeto. O detalhe não é trivial: significa que a vantagem de tempo de mercado, historicamente a barreira mais cara para entrar no mercado de aceleradores, está cedendo para quem opera modelos próprios e dispõe de capacidade de cálculo simbólico. A Nvidia mantém a vantagem em arquiteturas de propósito geral; perde, neste novo eixo, a corrida por silício verticalizado e descartável.
A Broadcom entra como sócia de execução. A empresa fornece a expertise de implementação física, manufatura via TSMC e o stack de IP de rede e SerDes que conecta milhares dessas peças num pod de inferência coerente. O contrato segue um padrão que a Broadcom já roda com Google e Meta, mas que pela primeira vez ganha um cliente cuja parte servível do negócio depende quase por inteiro do silício que está comprando.
Quem perde com o Jalapeño
A Nvidia perde menos do que sugere a manchete e mais do que sugere o seu próprio discurso. O Jalapeño não substitui treinamento, que continua dependente de GPUs H100, H200 e Blackwell. Mas inferência é o lado da carga que cresce com adoção de produto, e onde os 50% de economia citados por Tan se compõem ao longo de cada token gerado. Para a Nvidia, a leitura interna mais importante é que seu maior cliente declarado começou a comprar parte da própria pilha de inferência por fora, e isso muda o cálculo de duração da supercurva de receita de data center.
AMD e Intel saem ainda mais expostas. Tanto a MI400 quanto a Gaudi 3 vendem o argumento de melhor custo-benefício em inferência. Esse pitch encolhe na frente de uma OpenAI capaz de projetar seu próprio ASIC numa janela de nove meses e cortar o TCO pela metade sem terceirizar o design da arquitetura.
Leitura global: dois mercados onde o efeito chega rápido
No Reino Unido, a OpenAI mantém o segundo maior contingente de engenharia da empresa fora dos Estados Unidos, com escritório em Londres dedicado, entre outras coisas, a aplicações empresariais. Bancos como Barclays e HSBC, que já contrataram capacidade dedicada de inferência ChatGPT Enterprise para fluxos internos, devem ver o Jalapeño chegar como redução de preço por token nos planos corporativos antes de chegar a qualquer cliente final. Em Cingapura, hub regional onde a OpenAI processa demanda de Sudeste Asiático, o mesmo movimento muda a viabilidade econômica de assinaturas pagas de governo e bancos centrais que rejeitaram precificação de 2025.
O Brasil sente em segunda ordem, via repasse. Itaú, Bradesco, Stone e operações de IA da Cosan rodam inferência sobre OpenAI dentro de pipelines BPO e atendimento; metade do custo por token é metade de uma curva de custo que vinha sendo o principal argumento dos CTOs locais para desacelerar contratos.
A decisão de produto não anunciada nesta quarta vale o anúncio inteiro: a OpenAI deixou de ser cliente exclusivo de seus fornecedores de chip e passou a ser também concorrente deles em parte da pilha.