Quatorze mois après son départ d'OpenAI, Mira Murati, figure majeure de l'intelligence artificielle, présente le premier modèle de Thinking Machines. Contrairement aux grands modèles de langage traditionnels, cette innovation permet d'écouter, de voir et de répondre en simultané, comme le rapporte Numerama.
Ce qu'il faut retenir
- Thinking Machines dévoile TML-Interaction-Small, un modèle d'interaction en temps réel, le 11 mai 2026.
- L'IA utilise une architecture full-duplex, permettant des échanges fluides et sans latence, avec une prise de parole en 0,40 seconde.
- Le modèle repose sur un Mixture-of-Experts de 276 milliards de paramètres, dont 12 milliards actifs à chaque appel.
- Thinking Machines a levé 2 milliards de dollars en juillet 2025 et emploie une cinquantaine de salariés, dont d'anciens cadres d'OpenAI.
- Le modèle est actuellement en phase de recherche preview, avec une ouverture au public prévue plus tard en 2026.
Une rupture technologique dans l'interaction homme-machine
Thinking Machines sort de l'ombre avec un modèle qui rompt avec les conventions des assistants vocaux actuels. Contrairement à GPT, Claude ou Gemini, TML-Interaction-Small ne se concentre pas sur le raisonnement pur, mais sur la qualité de l'interaction. L'IA est conçue pour écouter et répondre en même temps, comme un interlocuteur humain, explique Numerama.
L'architecture repose sur deux composants : un modèle d'interaction léger, gérant le temps réel, la voix et les interjections, et un background model plus lourd, dédié au raisonnement complexe et aux recherches web. Pendant que l'IA discute, elle peut simultanément chercher des informations ou effectuer des tâches, une capacité que les humains, monotâches, ne peuvent égaler. Sur le benchmark FD-bench v1.5, conçu pour évaluer la qualité des interactions, TML-Interaction-Small obtient 77,8 points, contre 46,8 pour GPT-realtime-2.0 en mode minimal.
Des performances qui défient les standards actuels
Les résultats sont éloquents. La latence de prise de parole du modèle chute à 0,40 seconde, contre 0,57 pour Gemini-3.1-flash-live et 1,18 pour GPT-realtime-2.0 minimal. À titre de comparaison, une conversation humaine fluide se situe entre 200 et 250 millisecondes entre deux tours de parole. Le modèle excelle également dans la gestion du temps : contrairement aux grands modèles de langage classiques, qui ne « savent » l'heure que si on la leur précise, TML-Interaction-Small peut suivre des instructions comme « rappelle-moi de vérifier la température toutes les 4 minutes », un atout pour des usages en laboratoire, en chaîne de production ou en santé.
Ces performances s'expliquent par une conception innovante : l'IA découpe les conversations en micro-tours de 200 millisecondes, ajustant ses réponses en temps réel. Comme le souligne Sean Goedecke, ingénieur ayant analysé le modèle, cette approche rappelle les travaux d'autres acteurs comme Kyutai avec Moshi ou Nvidia avec Nemotron-VoiceChat. Cependant, la nouveauté de Thinking Machines réside dans le couplage avec un agent de raisonnement en arrière-plan, qui booste les performances sur certains benchmarks, passant de 76 % à 96 % sur BigBench Audio.
Une levée de fonds record et une équipe expérimentée
Fondée en 2024 par Mira Murati, ex-directrice technique d'OpenAI, Thinking Machines a rapidement attiré l'attention du secteur. En juillet 2025, l'entreprise a levé 2 milliards de dollars lors d'un tour de table seed, valorisant la société à 12 milliards de dollars. Ce financement, présenté comme le plus important de l'histoire pour une levée de fonds de ce type, a permis de recruter une cinquantaine de talents, dont John Schulman, cofondateur d'OpenAI, et plusieurs anciens cadres de la firme californienne partis à la suite de Murati.
Thinking Machines n'en est pas à son coup d'essai. Avant TML-Interaction-Small, l'entreprise avait déjà lancé Tinker, une API de fine-tuning en octobre 2025. La société mise sur une stratégie d'ouverture progressive, avec une première phase de recherche preview réservée à un cercle restreint de chercheurs. Une ouverture au grand public est annoncée pour plus tard en 2026, sans date précise communiquée. Pour l'instant, le code source n'a pas été publié, malgré les engagements initiaux de Murati sur un « composant open source significatif » dans le premier produit de l'entreprise.
Un modèle prometteur, mais encore limité au monde professionnel
Malgré ses atouts, TML-Interaction-Small ne devrait pas bouleverser immédiatement le paysage des assistants vocaux grand public. OpenAI domine toujours la distribution avec ChatGPT, tandis que Google mise sur Gemini Live pour Android et Anthropic sur d'autres axes. Thinking Machines cible d'abord les développeurs et les chercheurs, pour qui cette technologie représente une piste sérieuse. Sean Goedecke souligne que le modèle pourrait devenir un outil puissant pour des cas d'usage professionnels, notamment dans les domaines où la réactivité et la multitâche sont cruciales.
Pour le grand public, il faudra patienter. L'intégration dans des produits utilisables n'est pas attendue avant plusieurs mois. En attendant, la promesse d'un assistant vocal qui ne coupe plus la parole comme un interviewer maladroit pourrait suffire à susciter l'intérêt. Comme le note Numerama, l'innovation réside moins dans l'idée de full-duplex — déjà explorée par d'autres — que dans son couplage avec un agent de raisonnement, une combinaison qui pourrait redéfinir les interactions homme-IA.
Le full-duplex est une technologie qui permet à deux interlocuteurs de parler en même temps, comme lors d’un appel téléphonique. Contrairement aux modèles classiques d’IA, qui attendent que l’utilisateur ait fini de parler avant de répondre, un système full-duplex réduit la latence et rend les échanges plus naturels. Pour Thinking Machines, cela se traduit par une prise de parole en 0,40 seconde, contre près d’1,2 seconde pour certains concurrents.
Thinking Machines a lancé TML-Interaction-Small en phase de recherche preview, réservée à un cercle restreint de chercheurs. L’entreprise n’a pas communiqué de date précise pour une ouverture au public, se contentant d’annoncer une disponibilité « plus tard cette année ». Plusieurs raisons expliquent ce délai : la nécessité de valider les performances à grande échelle, la préparation des infrastructures et les ajustements en fonction des retours des premiers utilisateurs.