Thinking Machines : l'IA full-duplex qui répond en 0,4 s

29 mai 2026

•

Mis à jour le 14 juillet 2026

•

8 min de lecture

•

1502 mots

•

205 vues

•

Mira Murati dévoile TML-Interaction-Small, un modèle IA full-duplex à 0,4 s de latence traitant nativement audio, vidéo et texte pour des conversations naturelles en temps réel, défiant OpenAI et Google.

En bref

Thinking Machines Lab, la startup IA de l'ex-directrice technique d'OpenAI Mira Murati, a dévoilé ses « interaction models » en mai 2026 — une architecture IA temps réel capable de répondre en 0,4 seconde.
Le modèle TML-Interaction-Small traite simultanément audio, vidéo et texte en mode full-duplex, sans délimiteurs de tour de parole, concurrençant directement OpenAI Realtime API et Google Live API.
Soutenue par 2 milliards de dollars de financement, Thinking Machines Lab ouvre une preview de recherche limitée avant une sortie publique prévue dans le courant de 2026.

Mira Murati dévoile une IA qui parle et écoute simultanément à 0,4 seconde de latence

Thinking Machines Lab, la startup fondée par Mira Murati après son départ fracassant d'OpenAI en septembre 2024, a levé le voile en mai 2026 sur le cœur de son projet technologique : les « interaction models ». Cette annonce marque un tournant dans la course à l'IA conversationnelle temps réel, alors que les grands laboratoires comme OpenAI et Google peinent à proposer des interfaces vocales naturelles qui ne souffrent pas de latences perceptibles ou de comportements maladroits lors des interruptions de conversation.

Le modèle phare de Thinking Machines Lab, baptisé TML-Interaction-Small, affiche une latence de réponse de 0,40 seconde — soit approximativement la vitesse de réponse d'un interlocuteur humain dans une conversation naturelle. Ce chiffre, mesuré dans les conditions de la preview de recherche, placerait le modèle significativement en avance sur les solutions comparables d'OpenAI et de Google selon les benchmarks publiés à la date d'annonce. Thinking Machines revendique notamment une supériorité sur OpenAI Realtime API et sur Google Live API, les deux références actuelles du marché de l'IA vocale temps réel.

La différence fondamentale avec les approches existantes réside dans l'architecture native multimodale de TML-Interaction-Small. Là où les systèmes actuels assemblent des composants séparés — un modèle de reconnaissance vocale (ASR), un LLM de traitement, un moteur de synthèse vocale (TTS) — connectés par un orchestrateur externe, le modèle de Thinking Machines traite nativement l'audio, la vidéo et le texte dans un pipeline unifié. Il n'y a pas de module de détection d'activité vocale (VAD) externe, pas de frontières de tour de parole prédéfinies, pas de composants assemblés par des connecteurs : tout est traité dans un modèle unique de bout en bout.

Cette architecture full-duplex est précisément ce qui permet à TML-Interaction-Small d'écouter l'utilisateur pendant qu'il parle lui-même, de détecter une interruption en 200 millisecondes et de s'y adapter naturellement sans attendre la fin d'un « tour » de conversation formalisé. Le système fonctionne avec des micro-tours de 200 ms au lieu du cycle classique requête-réponse qui caractérise les LLMs conversationnels traditionnels. Cette suppression du délai de tour élimine le sentiment de dialogue artificiel que ressentent généralement les utilisateurs des assistants vocaux actuels, qu'il s'agisse des solutions d'OpenAI, d'Apple ou de Google.

Thinking Machines Lab a opté pour une architecture à deux composantes distinctes mais interconnectées : un « interaction model » qui reste connecté en permanence à l'utilisateur et gère la perception audio et vidéo en temps réel, et un « background model » qui s'occupe du raisonnement complexe et des appels à des outils externes de manière asynchrone. Cette séparation architecturale permet au modèle interactif de maintenir une latence ultra-faible sans être ralenti par des tâches de réflexion approfondie, qui sont déléguées de manière transparente au modèle de fond sans interruption perceptible pour l'utilisateur.

Le timing de cette annonce n'est pas anodin dans le contexte concurrentiel de 2026. OpenAI a lancé son API Realtime en octobre 2024 et Google sa Live API avec Gemini, mais les deux ont reçu des critiques récurrentes sur la latence dans les scénarios à charge élevée et sur la gestion peu naturelle des interruptions. Mira Murati, qui a supervisé le développement de nombreux produits phares d'OpenAI dont GPT-4, DALL-E et le mode voix avancé de ChatGPT, est particulièrement bien positionnée pour attaquer cette faiblesse spécifique du marché : elle connaît de l'intérieur les limites des architectures assemblées qu'elle a contribué à déployer.

Sur le plan des cas d'usage commerciaux visés, les applications sont nombreuses et à fort potentiel de marché : assistance client en temps réel capable de gérer des conversations naturelles et des interruptions sans awkward pauses, tutoriels interactifs avec retour instantané sur les questions posées à l'oral, interfaces de contrôle vocal pour des systèmes industriels ou robotiques complexes, ou encore assistants médicaux capables d'analyser simultanément les gestes d'un patient filmé et ses paroles lors d'une téléconsultation. La capacité à traiter la vidéo en temps réel — pas uniquement l'audio — constitue un différenciateur supplémentaire par rapport aux solutions purement vocales.

Thinking Machines Lab a ouvert en mai 2026 une preview de recherche limitée pour collecter des retours avant une sortie publique plus large prévue dans le courant de 2026. La startup, basée à San Francisco, bénéficie d'un financement de 2 milliards de dollars en capital-risque — un montant qui reflète à la fois la confiance des investisseurs dans le track record de Mira Murati et l'enjeu stratégique que représente l'IA conversationnelle temps réel pour les applications grand public et professionnelles à l'horizon 2027-2028.

La course à l'IA temps réel, nouveau front stratégique de l'industrie

L'annonce de Thinking Machines s'inscrit dans une compétition acharnée autour de l'IA temps réel, qui est en train de devenir l'un des fronts technologiques les plus importants de 2026. Les modèles de langage de génération précédente, optimisés pour la qualité des réponses en mode requête-réponse différé, montrent leurs limites face aux exigences des interfaces conversationnelles naturelles. La prochaine frontière de la valeur dans l'IA n'est plus seulement la qualité du raisonnement ou la profondeur des connaissances, mais la fluidité et la naturelité de l'interaction — deux dimensions que les architectures assemblées peinent à atteindre.

La décision de Thinking Machines de publier d'abord en preview de recherche plutôt qu'en accès commercial immédiat reflète une stratégie de positionnement soigneusement calculée. En impliquant la communauté scientifique dès le départ, la startup peut collecter des données d'évaluation indépendantes et construire une crédibilité académique qui soutiendra ses revendications de performance face aux géants du secteur. Cette stratégie rappelle celle d'Anthropic lors du lancement de Claude, qui avait misé sur la transparence et les évaluations de sécurité formelles pour se différencier d'OpenAI, ou celle de Mistral AI en Europe.

Du point de vue de la sécurité des systèmes d'IA, les modèles temps réel multimodaux soulèvent des enjeux inédits que la communauté de sécurité commence à peine à formaliser. Un système capable d'interpréter simultanément l'audio, la vidéo et le texte d'un utilisateur présente une surface d'exposition aux données personnelles considérablement plus large qu'un chatbot texte classique. Les questions de traitement, stockage et confidentialité des flux audio et vidéo en temps réel dans des infrastructures cloud deviennent cruciales, particulièrement en Europe où le RGPD encadre strictement le traitement des données biométriques et vocales.

Pour les entreprises françaises et européennes envisageant d'intégrer ces technologies dans leurs processus métier, la question de la souveraineté des données sera centrale dans toute évaluation. Thinking Machines Lab est une entreprise américaine, soumise au Cloud Act américain, ce qui implique des contraintes spécifiques pour les usages professionnels sensibles dans les secteurs de la santé, de la finance ou du secteur public. L'émergence de modèles open-source comparables, notamment de la part de laboratoires européens comme Mistral AI, pourrait à terme offrir des alternatives plus compatibles avec les exigences de souveraineté numérique portées par l'UE. Le règlement européen sur l'IA (AI Act) encadre par ailleurs spécifiquement les systèmes d'IA à usage général de haut risque, une catégorie dans laquelle pourraient entrer les interaction models déployés dans des contextes médicaux ou d'infrastructures critiques.

Ce qu'il faut retenir

Thinking Machines Lab dévoile TML-Interaction-Small, un modèle IA full-duplex avec 0,4 s de latence qui traite nativement audio, vidéo et texte sans composants assemblés — une première architecturale dans le secteur.
L'architecture à deux niveaux (interaction model temps réel + background model asynchrone) est un différenciateur technique majeur qui combine réactivité instantanée et raisonnement complexe.
Les entreprises européennes doivent anticiper les enjeux RGPD et de souveraineté liés au traitement de flux audio/vidéo en temps réel avant toute intégration de ces technologies dans des usages professionnels sensibles.

En quoi les interaction models de Thinking Machines diffèrent-ils des APIs vocales d'OpenAI et Google ?

La différence principale est architecturale : OpenAI Realtime API et Google Live API reposent sur l'assemblage de composants spécialisés (ASR + LLM + TTS) coordonnés par un orchestrateur, ce qui introduit des latences de chaîne cumulatives. TML-Interaction-Small traite nativement toutes les modalités dans un seul modèle unifié sans VAD externe ni frontières de tour de parole, ce qui permet le full-duplex (parler et écouter simultanément) avec des micro-tours de 200 ms. C'est conceptuellement ce qu'OpenAI avait annoncé avec GPT-4o en mode voix avancé, mais Thinking Machines revendique une supériorité technique en termes de latence mesurée et de naturel dans la gestion des interruptions, grâce à l'absence totale de composants intermédiaires assemblés.

Besoin d'un accompagnement expert ?

Ayi NEDJIMI vous accompagne sur vos projets cybersécurité et IA.

Prendre contact

#News

Partager cet article

Twitter LinkedIn

À propos de l'auteur

Ayi NEDJIMI

Auditeur Senior Cybersécurité & Consultant IA

Expert Judiciaire — Cour d'Appel de Paris
Habilitation Confidentiel Défense

[email protected]

25+

ans d'expérience

700+

articles publiés

100+

missions réalisées

Ayi NEDJIMI est un vétéran de la cybersécurité avec plus de 25 ans d'expérience sur des missions critiques. Ancien développeur Microsoft à Redmond sur le module GINA (Windows NT4) et co-auteur de la version française du guide de sécurité Windows NT4 pour la NSA.

À la tête d'Ayi NEDJIMI Consultants, il réalise des audits Lead Auditor ISO 42001 et ISO 27001, des pentests d'infrastructures critiques, du forensics et des missions de conformité NIS2 / AI Act.

Conférencier international (Europe & US), il a formé plus de 10 000 professionnels.

Domaines d'expertise

ISO 42001 Lead Auditor ISO 27001 · NIS2 Pentest & Forensics IA / LLM / RAG Cloud & Active Directory

Voir le profil complet Demander un devis

Ressources & Outils de l'auteur

GitHub

Code & projets open source

ORCID

Identifiant chercheur

Hugging Face

Modèles IA & datasets

CertifExpress

Préparez vos certifications IT

WindowsBooster

Optimisation Windows 11

Articles connexes

Nihon Kotsu : malware frappe le dispatch taxi de Tokyo

Nihon Kotsu, premier opérateur de taxis du Japon avec plus de 6 300 véhicules à Tokyo, a confirmé le 13 juillet 2026 une infection malware ayant paralysé son système de dispatch téléphonique et ses réservations en ligne.

14/07/2026

jscrambler npm backdooré : supply chain via preinstall hook

Le package npm jscrambler a été compromis le 11 juillet 2026 via cinq versions malveillantes intégrant un infostealer Rust exécuté dès l'installation. La charge utile cible credentials cloud, tokens CI/CD et configurations d'outils IA.

14/07/2026

Samsung Health : données santé effacées si vous refusez l'IA

Samsung contraint ses utilisateurs à consentir à l'utilisation de leurs données de santé pour entraîner ses modèles IA, sous peine de suppression immédiate. Une pratique qui soulève de graves questions de conformité RGPD.

14/07/2026

Article précédent

Storm-2949 vide Azure et M365 sans malware via Entra SSPR

Article suivant

Akira, Everest, WorldLeaks : 7 victimes industrielles en 48h fin mai 2026

Besoin d'un expert ?

Un projet cybersécurité ? Parlons-en.

Pentest, conformité NIS 2, ISO 27001, audit IA, RSSI externalisé… nos experts répondent sous 24h pour évaluer votre besoin et vous proposer un accompagnement sur mesure.

Nous contacter

Commentaires (1)

Mathieu Rossignol 01/01/0001 à 00:00

Les 0,4 s de latence c'est bluffant sur le papier mais j'imagine que ça tient dans des conditions réseau idéales. Vous avez des chiffres sur la dégradation en situation réelle avec 4G standard ?

Laisser un commentaire