mai 12, 2026

Pourquoi la nouvelle IA de Mira Murati rend ChatGPT obsolète avec 0,4 seconde de latence ?

ia, IA générative, intelligence artificielle, mira murati, openai, Sam Altman

Lundi 12 mai 2026, Thinking Machines Lab, la startup fondée par Mira Murati (ancienne CTO d’OpenAI) et Soumith Chintala (créateur de PyTorch), a dévoilé une nouvelle catégorie de modèles IA qu’elle appelle les « interaction models ». Le concept : une IA qui ne fonctionne plus par tours (vous tapez, vous attendez, elle répond, elle attend). Une IA qui écoute, voit, parle, pense et agit en même temps. En continu. Sans pause.

Le résultat technique est spectaculaire. Sur FD-bench (un benchmark dédié à la qualité d’interaction et au timing conversationnel), le modèle TML-Interaction-Small atteint une latence de réponse de 0,40 seconde par tour. La norme de l’industrie est de 1 à 2 secondes. Les micro-tours de 200 millisecondes intercalent entrée et sortie sans interruption : le modèle commence à réfléchir et à répondre pendant que vous êtes encore en train de parler.

Ce n’est pas un pipeline de composants assemblés (un module audio, un module vision, un module texte collés ensemble). C’est un modèle entraîné de zéro pour fonctionner en full-duplex, c’est-à-dire en émission et réception simultanées, comme une vraie conversation humaine.

Ce que ça change concrètement

Toute IA que vous utilisez aujourd’hui (ChatGPT, Claude, Gemini, Grok) fonctionne en half-duplex. Vous parlez, l’IA écoute. L’IA répond, vous attendez. C’est comme résoudre une crise par email alors que vous pourriez être dans la même pièce.

Les interaction models de Thinking Machines Lab fonctionnent en full-duplex. L’IA traite l’audio et la vidéo en temps réel, perçoit quand vous hésitez, intervient avant que vous ne le demandiez, effectue des recherches et utilise des outils tout en discutant avec vous, et peut même générer une interface visuelle pendant qu’elle vous parle.

L’innovation technique clé s’appelle « encoder-free early fusion ». Au lieu d’utiliser de lourds encodeurs externes pour traiter l’audio et la vidéo (ce que font tous les modèles actuels), Thinking Machines Lab traite les signaux bruts directement via des couches d’embedding légères à l’intérieur du transformer. Le résultat : une latence drastiquement réduite, parce que le modèle n’attend plus qu’un module externe ait fini de pré-traiter l’input avant de commencer à réfléchir.

Autre capacité démontrée : la traduction simultanée en temps réel, avec les deux parties qui parlent chacune dans leur langue. Pas de pause. Pas de « attendez, je traduis ». Les deux flux audio sont traités et traduits en parallèle.

Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time interaction natively, instead of gluing it onto a turn-based one.https://t.co/MoS5s4cm60
— Mira Murati (@miramurati) May 11, 2026

Mira Murati : de ChatGPT à Thinking Machines

L’histoire de Murati est celle d’une trajectoire unique dans l’industrie IA. D’origine albanaise, arrivée aux États-Unis à 16 ans, diplômée du Dartmouth College en ingénierie, elle rejoint OpenAI en 2018 et devient CTO en 2022. C’est sous sa direction technique que ChatGPT est développé et lancé en novembre 2022, déclenchant la révolution IA grand public.

A lire : Claude Mythos a-t-il vraiment découvert « des milliers de failles critiques » ou Anthropic nous raconte-t-il des Mythos ?

En septembre 2024, elle quitte OpenAI. Silence radio pendant des mois. Puis, en février 2025, elle fonde Thinking Machines Lab avec John Schulman (chief scientist, ex-OpenAI), Barrett Zoph, Lilian Weng, Andrew Tulloch et Luke Metz, tous anciens d’OpenAI. Soumith Chintala, le créateur de PyTorch (le framework de deep learning le plus utilisé au monde, développé chez Meta), rejoint comme CTO.

L’équipe lève 2 milliards de dollars en seed funding en cinq mois, pour une valorisation de 12 milliards. En octobre 2025, ils lancent Tinker, un outil de fine-tuning de modèles open source utilisant LoRA (Low-Rank Adaptation). En novembre 2025, ils cherchent 5 milliards supplémentaires à une valorisation de 50 milliards.

Et aujourd’hui, ils dévoilent les interaction models. Le produit qui justifie la valorisation.

La « leçon amère » de Rich Sutton

Le point technique le plus important de l’annonce est une référence académique. Thinking Machines Lab cite la « Bitter Lesson » de Rich Sutton, l’un des pères du reinforcement learning. En 2019, Sutton avait écrit que les approches qui tentent d’intégrer des connaissances humaines dans les systèmes IA perdent toujours face aux approches qui misent sur le calcul brut et l’apprentissage à grande échelle.

Thinking Machines Lab applique cette leçon à l’interactivité. Au lieu de construire l’interaction en temps réel en assemblant des composants externes (un STT ici, un TTS là, un routeur au milieu), ils ont entraîné un modèle natif qui fait tout en interne. Le résultat : à mesure que le modèle monte en puissance (plus de paramètres, plus de compute), il devient simultanément plus intelligent ET plus interactif. L’intelligence et l’interaction ne sont pas en compétition. Elles se renforcent mutuellement.

C’est un changement de paradigme. Tous les modèles actuels traitent l’interactivité comme un problème d’ingénierie (réduire la latence du pipeline). Thinking Machines Lab la traite comme un problème d’apprentissage (entraîner le modèle à interagir nativement). Si cette approche tient à l’échelle, elle rend obsolète l’architecture de tous les assistants vocaux existants.

Ce que ça signifie pour les géants

Si Thinking Machines Lab a raison, toute IA conversationnelle actuelle fonctionne sur une architecture fondamentalement limitée. ChatGPT Advanced Voice Mode, Claude Voice, Gemini Live, Siri, Alexa, Copilot Voice : tous utilisent des pipelines de composants (reconnaissance vocale, modèle de langage, synthèse vocale) assemblés séquentiellement. Chaque composant ajoute de la latence. Chaque transition entre composants perd de l’information.

A lire : Publicité et IA : la fin de l'ère gratuite pour ChatGPT, Gemini et les autres

Les interaction models remplacent ce pipeline par un modèle unique qui fait tout nativement. Si la latence de 0,40 seconde se confirme en production à grande échelle (pas juste sur un benchmark contrôlé), c’est un avantage structurel que les géants ne peuvent pas combler en optimisant leur pipeline. Il faudrait qu’ils réentraînent leurs modèles de zéro pour l’interaction native. Ce qui prend des mois et des milliards.

Google est probablement le mieux placé pour répondre (Gemini a déjà des capacités multimodales natives). OpenAI et Anthropic sont plus vulnérables : leurs modèles sont d’abord textuels, avec l’audio et la vidéo ajoutés en couches supplémentaires.

Les questions ouvertes

La démo est impressionnante. Mais plusieurs questions restent sans réponse.

Le modèle fonctionne-t-il à cette latence quand des millions d’utilisateurs l’utilisent simultanément ? FD-bench est un benchmark, pas un test de charge en production.

Quel est le coût d’inférence ? Un modèle full-duplex qui traite audio + vidéo + texte en continu consomme-t-il 10x plus de compute qu’un modèle classique ? Si oui, le prix d’accès sera un frein.

Et surtout : les capacités de raisonnement de TML-Interaction sont-elles au niveau de Claude Opus, GPT-5.5 ou Gemini 4 ? Être rapide et interactif ne suffit pas s’il faut sacrifier la profondeur de réflexion. Thinking Machines Lab n’a publié aucun score sur les benchmarks de raisonnement classiques (SWE-bench, MMLU, HLE). Ce silence est volontaire ou révélateur.

Pourquoi ça compte

Mira Murati n’a pas fondé un énième chatbot. Elle n’a pas lancé un concurrent de Claude ou de ChatGPT sur le terrain du raisonnement ou du codage. Elle a ciblé le problème que tous les labos ont ignoré : l’interface entre l’humain et l’IA est cassée.

Vous tapez, vous attendez. Le modèle répond, attend. C’est une conversation par talkie-walkie à l’ère du FaceTime. Personne ne communique comme ça dans la vraie vie. Et pourtant, c’est ainsi que fonctionne toute l’IA conversationnelle depuis GPT-3.

Si les interaction models fonctionnent à l’échelle, ils ne rendent pas les autres modèles inutiles. Ils rendent leur interface obsolète. Et dans la tech, l’interface qui gagne finit toujours par dévorer le marché. L’iPhone n’avait pas le meilleur processeur. Il avait la meilleure interface. Google n’avait pas le meilleur index. Il avait la meilleure barre de recherche.

Thinking Machines Lab parie que la prochaine vague ne sera pas le modèle le plus intelligent. Ce sera le modèle avec lequel il est le plus naturel de travailler. Et la femme qu’OpenAI a laissée partir est la première à livrer.

Ethan

Je suis Ethan, journaliste spécialisé en intelligence artificielle et nouvelles technologies. Je couvre l’actualité de l’IA agentique, des grands modèles de langage et des outils qui transforment nos usages numériques. Mon objectif : rendre accessibles les avancées technologiques les plus complexes, avec rigueur et sans jargon inutile.

Derniers articles

Pourquoi la nouvelle IA de Mira Murati rend ChatGPT obsolète avec 0,4 seconde de latence ?

Ethan

OpenAI lance Daybreak, son offensive cybersécurité : trouver et corriger les failles avant les hackers, avec Cloudflare, Cisco et CrowdStrike

Ethan

Anthropic signe un contrat de 1,8 milliard de dollars avec Akamai : l’action bondit de 27 %, et la startup a désormais cinq fournisseurs d’infrastructure

Ethan