Mira Murati dévoile TML-Interaction-Small, un modèle IA full-duplex à 0,4 s de latence traitant nativement audio, vidéo et texte pour des conversations naturelles en temps réel, défiant OpenAI et Google.
En bref
- Thinking Machines Lab, la startup IA de l'ex-directrice technique d'OpenAI Mira Murati, a dévoilé ses « interaction models » en mai 2026 — une architecture IA temps réel capable de répondre en 0,4 seconde.
- Le modèle TML-Interaction-Small traite simultanément audio, vidéo et texte en mode full-duplex, sans délimiteurs de tour de parole, concurrençant directement OpenAI Realtime API et Google Live API.
- Soutenue par 2 milliards de dollars de financement, Thinking Machines Lab ouvre une preview de recherche limitée avant une sortie publique prévue dans le courant de 2026.
Mira Murati dévoile une IA qui parle et écoute simultanément à 0,4 seconde de latence
Thinking Machines Lab, la startup fondée par Mira Murati après son départ fracassant d'OpenAI en septembre 2024, a levé le voile en mai 2026 sur le cœur de son projet technologique : les « interaction models ». Cette annonce marque un tournant dans la course à l'IA conversationnelle temps réel, alors que les grands laboratoires comme OpenAI et Google peinent à proposer des interfaces vocales naturelles qui ne souffrent pas de latences perceptibles ou de comportements maladroits lors des interruptions de conversation.
Le modèle phare de Thinking Machines Lab, baptisé TML-Interaction-Small, affiche une latence de réponse de 0,40 seconde — soit approximativement la vitesse de réponse d'un interlocuteur humain dans une conversation naturelle. Ce chiffre, mesuré dans les conditions de la preview de recherche, placerait le modèle significativement en avance sur les solutions comparables d'OpenAI et de Google selon les benchmarks publiés à la date d'annonce. Thinking Machines revendique notamment une supériorité sur OpenAI Realtime API et sur Google Live API, les deux références actuelles du marché de l'IA vocale temps réel.
La différence fondamentale avec les approches existantes réside dans l'architecture native multimodale de TML-Interaction-Small. Là où les systèmes actuels assemblent des composants séparés — un modèle de reconnaissance vocale (ASR), un LLM de traitement, un moteur de synthèse vocale (TTS) — connectés par un orchestrateur externe, le modèle de Thinking Machines traite nativement l'audio, la vidéo et le texte dans un pipeline unifié. Il n'y a pas de module de détection d'activité vocale (VAD) externe, pas de frontières de tour de parole prédéfinies, pas de composants assemblés par des connecteurs : tout est traité dans un modèle unique de bout en bout.
Cette architecture full-duplex est précisément ce qui permet à TML-Interaction-Small d'écouter l'utilisateur pendant qu'il parle lui-même, de détecter une interruption en 200 millisecondes et de s'y adapter naturellement sans attendre la fin d'un « tour » de conversation formalisé. Le système fonctionne avec des micro-tours de 200 ms au lieu du cycle classique requête-réponse qui caractérise les LLMs conversationnels traditionnels. Cette suppression du délai de tour élimine le sentiment de dialogue artificiel que ressentent généralement les utilisateurs des assistants vocaux actuels, qu'il s'agisse des solutions d'OpenAI, d'Apple ou de Google.
Thinking Machines Lab a opté pour une architecture à deux composantes distinctes mais interconnectées : un « interaction model » qui reste connecté en permanence à l'utilisateur et gère la perception audio et vidéo en temps réel, et un « background model » qui s'occupe du raisonnement complexe et des appels à des outils externes de manière asynchrone. Cette séparation architecturale permet au modèle interactif de maintenir une latence ultra-faible sans être ralenti par des tâches de réflexion approfondie, qui sont déléguées de manière transparente au modèle de fond sans interruption perceptible pour l'utilisateur.
Le timing de cette annonce n'est pas anodin dans le contexte concurrentiel de 2026. OpenAI a lancé son API Realtime en octobre 2024 et Google sa Live API avec Gemini, mais les deux ont reçu des critiques récurrentes sur la latence dans les scénarios à charge élevée et sur la gestion peu naturelle des interruptions. Mira Murati, qui a supervisé le développement de nombreux produits phares d'OpenAI dont GPT-4, DALL-E et le mode voix avancé de ChatGPT, est particulièrement bien positionnée pour attaquer cette faiblesse spécifique du marché : elle connaît de l'intérieur les limites des architectures assemblées qu'elle a contribué à déployer.
Sur le plan des cas d'usage commerciaux visés, les applications sont nombreuses et à fort potentiel de marché : assistance client en temps réel capable de gérer des conversations naturelles et des interruptions sans awkward pauses, tutoriels interactifs avec retour instantané sur les questions posées à l'oral, interfaces de contrôle vocal pour des systèmes industriels ou robotiques complexes, ou encore assistants médicaux capables d'analyser simultanément les gestes d'un patient filmé et ses paroles lors d'une téléconsultation. La capacité à traiter la vidéo en temps réel — pas uniquement l'audio — constitue un différenciateur supplémentaire par rapport aux solutions purement vocales.
Thinking Machines Lab a ouvert en mai 2026 une preview de recherche limitée pour collecter des retours avant une sortie publique plus large prévue dans le courant de 2026. La startup, basée à San Francisco, bénéficie d'un financement de 2 milliards de dollars en capital-risque — un montant qui reflète à la fois la confiance des investisseurs dans le track record de Mira Murati et l'enjeu stratégique que représente l'IA conversationnelle temps réel pour les applications grand public et professionnelles à l'horizon 2027-2028.
La course à l'IA temps réel, nouveau front stratégique de l'industrie
L'annonce de Thinking Machines s'inscrit dans une compétition acharnée autour de l'IA temps réel, qui est en train de devenir l'un des fronts technologiques les plus importants de 2026. Les modèles de langage de génération précédente, optimisés pour la qualité des réponses en mode requête-réponse différé, montrent leurs limites face aux exigences des interfaces conversationnelles naturelles. La prochaine frontière de la valeur dans l'IA n'est plus seulement la qualité du raisonnement ou la profondeur des connaissances, mais la fluidité et la naturelité de l'interaction — deux dimensions que les architectures assemblées peinent à atteindre.
La décision de Thinking Machines de publier d'abord en preview de recherche plutôt qu'en accès commercial immédiat reflète une stratégie de positionnement soigneusement calculée. En impliquant la communauté scientifique dès le départ, la startup peut collecter des données d'évaluation indépendantes et construire une crédibilité académique qui soutiendra ses revendications de performance face aux géants du secteur. Cette stratégie rappelle celle d'Anthropic lors du lancement de Claude, qui avait misé sur la transparence et les évaluations de sécurité formelles pour se différencier d'OpenAI, ou celle de Mistral AI en Europe.
Du point de vue de la sécurité des systèmes d'IA, les modèles temps réel multimodaux soulèvent des enjeux inédits que la communauté de sécurité commence à peine à formaliser. Un système capable d'interpréter simultanément l'audio, la vidéo et le texte d'un utilisateur présente une surface d'exposition aux données personnelles considérablement plus large qu'un chatbot texte classique. Les questions de traitement, stockage et confidentialité des flux audio et vidéo en temps réel dans des infrastructures cloud deviennent cruciales, particulièrement en Europe où le RGPD encadre strictement le traitement des données biométriques et vocales.
Pour les entreprises françaises et européennes envisageant d'intégrer ces technologies dans leurs processus métier, la question de la souveraineté des données sera centrale dans toute évaluation. Thinking Machines Lab est une entreprise américaine, soumise au Cloud Act américain, ce qui implique des contraintes spécifiques pour les usages professionnels sensibles dans les secteurs de la santé, de la finance ou du secteur public. L'émergence de modèles open-source comparables, notamment de la part de laboratoires européens comme Mistral AI, pourrait à terme offrir des alternatives plus compatibles avec les exigences de souveraineté numérique portées par l'UE. Le règlement européen sur l'IA (AI Act) encadre par ailleurs spécifiquement les systèmes d'IA à usage général de haut risque, une catégorie dans laquelle pourraient entrer les interaction models déployés dans des contextes médicaux ou d'infrastructures critiques.
Ce qu'il faut retenir
- Thinking Machines Lab dévoile TML-Interaction-Small, un modèle IA full-duplex avec 0,4 s de latence qui traite nativement audio, vidéo et texte sans composants assemblés — une première architecturale dans le secteur.
- L'architecture à deux niveaux (interaction model temps réel + background model asynchrone) est un différenciateur technique majeur qui combine réactivité instantanée et raisonnement complexe.
- Les entreprises européennes doivent anticiper les enjeux RGPD et de souveraineté liés au traitement de flux audio/vidéo en temps réel avant toute intégration de ces technologies dans des usages professionnels sensibles.
En quoi les interaction models de Thinking Machines diffèrent-ils des APIs vocales d'OpenAI et Google ?
La différence principale est architecturale : OpenAI Realtime API et Google Live API reposent sur l'assemblage de composants spécialisés (ASR + LLM + TTS) coordonnés par un orchestrateur, ce qui introduit des latences de chaîne cumulatives. TML-Interaction-Small traite nativement toutes les modalités dans un seul modèle unifié sans VAD externe ni frontières de tour de parole, ce qui permet le full-duplex (parler et écouter simultanément) avec des micro-tours de 200 ms. C'est conceptuellement ce qu'OpenAI avait annoncé avec GPT-4o en mode voix avancé, mais Thinking Machines revendique une supériorité technique en termes de latence mesurée et de naturel dans la gestion des interruptions, grâce à l'absence totale de composants intermédiaires assemblés.
Besoin d'un accompagnement expert ?
Ayi NEDJIMI vous accompagne sur vos projets cybersécurité et IA.
Prendre contactÀ propos de l'auteur
Ayi NEDJIMI
Auditeur Senior Cybersécurité & Consultant IA
Expert Judiciaire — Cour d'Appel de Paris
Habilitation Confidentiel Défense
ayi@ayinedjimi-consultants.fr
Ayi NEDJIMI est un vétéran de la cybersécurité avec plus de 25 ans d'expérience sur des missions critiques. Ancien développeur Microsoft à Redmond sur le module GINA (Windows NT4) et co-auteur de la version française du guide de sécurité Windows NT4 pour la NSA.
À la tête d'Ayi NEDJIMI Consultants, il réalise des audits Lead Auditor ISO 42001 et ISO 27001, des pentests d'infrastructures critiques, du forensics et des missions de conformité NIS2 / AI Act.
Conférencier international (Europe & US), il a formé plus de 10 000 professionnels.
Domaines d'expertise
Ressources & Outils de l'auteur
Articles connexes
Storm-2949 vide Azure et M365 sans malware via Entra SSPR
Microsoft révèle comment Storm-2949 a compromis un tenant Azure et M365 complet via l'abus du SSPR Entra ID, sans aucun malware, en contournant le MFA par ingénierie sociale.
ShinyHunters vide Charter après ultimatum : 42 M de records
ShinyHunters publie les données de Charter Communications après son ultimatum : 4,85 millions de clients vérifiés exposés via une attaque vishing ciblant Salesforce.
CVE-2026-35616 FortiClient EMS : EKZ, infostealer furtif
Une faille critique CVSS 9.1 dans FortiClient EMS (CVE-2026-35616) est activement exploitée pour déployer EKZ, un infostealer se faisant passer pour une mise à jour Fortinet sur les endpoints gérés.
Un projet cybersécurité ? Parlons-en.
Pentest, conformité NIS 2, ISO 27001, audit IA, RSSI externalisé… nos experts répondent sous 24h pour évaluer votre besoin.
Commentaires
Aucun commentaire pour le moment. Soyez le premier à commenter !
Laisser un commentaire