Microsoft estreia família MAI no Build com modelo de raciocínio próprio para reduzir dependência da OpenAI

MAI-Thinking-1 tem 35 bilhões de parâmetros ativos, contexto de 256 mil tokens e foi treinado sem destilação de modelos de terceiros, em movimento que Mustafa Suleyman descreveu como true self-sufficiency.
Mustafa Suleyman subiu ao palco do Build 2026 em 2 de junho com sete modelos próprios da Microsoft e uma tese: o que ele chamou de true self-sufficiency, uma redução estruturada da dependência da OpenAI para o stack de IA generativa que hoje sustenta o Copilot, o Azure AI Foundry e parte do GitHub. O carro-chefe é o MAI-Thinking-1, primeiro modelo de raciocínio próprio da casa, com 35 bilhões de parâmetros ativos em arquitetura Mixture of Experts esparsa e aproximadamente um trilhão de parâmetros totais, janela de contexto de 256 mil tokens e o detalhe que Suleyman repetiu duas vezes: foi treinado do zero, sem destilação de modelos de terceiros.
A escolha do treinamento limpo é estratégica antes de ser técnica. Suleyman afirmou que avaliadores independentes preferiram o MAI-Thinking-1 ao Claude Sonnet 4.6 da Anthropic em testes cegos lado a lado, e que o modelo atinge desempenho comparável ao Opus 4.6 no SWE-Bench Pro, benchmark de engenharia de software. A Microsoft também relatou score acima de 94% no AIME 2026 para raciocínio matemático. Reprodução independente desses resultados, no entanto, ainda não foi publicada com dados brutos completos, e analistas têm pedido cautela antes de considerar os números benchmarks de referência.
Sete modelos, três frentes
Além do MAI-Thinking-1, a Microsoft soltou o MAI-Code-1-Flash, modelo de codificação de 5 bilhões de parâmetros que entra em rollout em todos os planos do GitHub Copilot e no Visual Studio Code, e o MAI-Image-2.5, que combina text-to-image e image-to-image e aparece em segundo lugar no leaderboard de edição da Arena AI, à frente do Nano Banana Pro do Google. Os outros quatro modelos da safra cobrem voz, multimodalidade leve e variantes flash para inferência de baixa latência. Acompanhando a leva de modelos, a casa apresentou o Project Solara, plataforma para sistemas agênticos, e detalhou o acelerador Maia 200 rodando em um tecido de supercomputação batizado Fairwater.
A tese da Microsoft passou a ser horizontal: modelos próprios para clientes que querem lineage de dados claro e treinamento sem dependência de licenças cruzadas, mais OpenAI para quem prefere a fronteira sem custo de transição. Em entrevista ao Semafor, Suleyman descreveu a iniciativa como o greatest game of catchup ever played, reconhecendo que a Microsoft trabalha para reduzir um déficit de capacidade em modelos próprios construído desde 2019.
Para CIOs, a leitura é de risco contratual
Para os clientes empresariais que assinaram Enterprise Agreements com Copilot embarcado, a decisão de qual modelo entrega o token deixa de ser uma escolha técnica e passa a ser uma negociação de procurement. A Microsoft agora oferece caminho para empresas que precisam comprovar a procedência dos dados de treinamento, demanda que se acentuou nas exigências do AI Act europeu e nas auditorias internas de grandes bancos. Modelos com lineage auditável vinham sendo pedidos por clientes regulados europeus desde o início do ano, e o MAI-Thinking-1 entra exatamente nessa categoria.
A independência tem, porém, custo de portfólio. A Microsoft segue como cliente Azure da própria OpenAI para inferência de GPT e tem participação financeira no laboratório. Substituir GPT por MAI no Copilot reduz custo unitário, mas comprime a margem do contrato cruzado. A Anthropic, que protocolou registro confidencial de S-1 na SEC na semana passada com valuation de US$ 965 bilhões, vê na Microsoft simultaneamente um cliente do Azure e um competidor direto pelo orçamento de assinaturas Copilot.
Onde o impacto aterrissa
Para as fábricas de software offshore em Bengaluru, Pune e Hyderabad, o MAI-Code-1-Flash dentro do GitHub Copilot acelera a transição de code review automatizado que TCS, Infosys e Wipro vinham desenhando desde o segundo semestre de 2025. Nos hubs de delivery na Polônia e nas Filipinas, o efeito é o mesmo: tarefas de codificação de baixa complexidade migram para o modelo, e o headcount de associate-level que dependia desse tipo de trabalho perde justificativa contratual mais rápido. Para clientes nos Estados Unidos e na Alemanha, a leitura é diferente: o ganho de produtividade entra direto no contrato Copilot Enterprise, sem disputa redistributiva de centro de delivery.
O preço sugerido para acesso ao MAI-Thinking-1 via Azure não foi divulgado no palco do Build, mas analistas no curto prazo apontam para custo por milhão de tokens abaixo do Claude Sonnet 4.6 e do GPT-5.1, o que tornaria a transição economicamente racional para companhias com volumes altos de inferência. A Microsoft levou cinco anos para sair do papel de revendedora exclusiva da OpenAI no segmento enterprise, e o Build 2026 é o primeiro evento em que a casa fala como editora de modelos próprios sem rodeios. A pergunta que sobra para CIOs é se a infraestrutura Azure consegue absorver, em paralelo, a inferência de GPT, Claude via Bedrock-Azure cross-stack e a nova família MAI sem comprometer SLA.