En bref

  • Microsoft AI dévoile trois modèles fondamentaux : MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2, développés en interne.
  • Ces modèles marquent l'émancipation de Microsoft vis-à-vis d'OpenAI sur les briques IA fondamentales.
  • Disponibles sur Microsoft Foundry, ils alimentent déjà Copilot et réduisent les coûts GPU de 50 %.

Ce qui s'est passé

Le 2 avril 2026, l'équipe MAI Superintelligence de Microsoft, dirigée par Mustafa Suleyman (CEO de Microsoft AI), a annoncé le lancement de trois modèles d'intelligence artificielle développés entièrement en interne. Cette division, créée en novembre 2025, livre ainsi ses premières briques fondamentales concurrençant directement les offres d'OpenAI.

MAI-Transcribe-1 est un modèle de reconnaissance vocale qui prend en charge 25 langues avec une précision qualifiée d'« enterprise-grade », pour un coût GPU inférieur de 50 % aux alternatives existantes. Son tarif démarre à 0,36 dollar par heure de transcription. MAI-Voice-1, dédié à la synthèse vocale, peut générer 60 secondes d'audio en moins d'une seconde sur un seul GPU, avec la possibilité de créer des voix personnalisées. Le troisième modèle, MAI-Image-2, est un générateur d'images à partir de texte.

Les trois modèles sont disponibles sur Microsoft Foundry, la plateforme de déploiement IA de l'entreprise. MAI-Transcribe-1 et MAI-Voice-1 sont également accessibles dans le MAI Playground. Copilot intègre déjà ces modèles : Audio Expressions utilise MAI-Voice-1, tandis que le service de transcription de Copilot Voice Mode repose sur MAI-Transcribe-1.

Pourquoi c'est important

Cette annonce représente un tournant stratégique pour Microsoft. Après avoir investi 13 milliards de dollars dans OpenAI et bâti sa stratégie IA autour de GPT, l'entreprise développe désormais ses propres modèles fondamentaux. Ce mouvement réduit sa dépendance envers OpenAI et lui donne un levier de négociation dans un partenariat devenu complexe, alors que les discussions sur la restructuration d'OpenAI en entreprise à but lucratif se poursuivent.

Pour les entreprises clientes, l'arrivée de modèles maison Microsoft signifie davantage de concurrence sur les prix et potentiellement une meilleure intégration avec l'écosystème Azure et Microsoft 365. La réduction de 50 % du coût GPU pour la transcription est un signal fort à destination des entreprises qui déploient l'IA à grande échelle. Cette stratégie multi-fournisseur — Microsoft utilise aussi des modèles d'Anthropic et de Mistral — crée un marché plus compétitif et diversifié.

Ce qu'il faut retenir

  • Microsoft développe ses propres modèles IA fondamentaux (voix, transcription, image) via l'équipe MAI Superintelligence.
  • MAI-Transcribe-1 réduit les coûts GPU de 50 % par rapport aux solutions concurrentes pour la reconnaissance vocale.
  • Cette stratégie d'émancipation vis-à-vis d'OpenAI diversifie l'offre IA et intensifie la concurrence sur le marché des modèles fondamentaux.

Quel impact pour les entreprises utilisant déjà Azure OpenAI Service ?

Les modèles MAI complètent l'offre Azure OpenAI sans la remplacer. Les entreprises bénéficient d'un choix élargi : GPT pour le raisonnement et la génération de texte, MAI pour la voix et la transcription à moindre coût. Microsoft Foundry permet de combiner ces modèles selon les cas d'usage, optimisant ainsi le rapport performance-prix de chaque brique IA déployée.

Besoin d'un accompagnement expert ?

Ayi NEDJIMI vous accompagne sur vos projets cybersécurité et IA.

Prendre contact