Thinking Machines, fondée par Mira Murati, lance un modèle d'IA en temps réel qui écoute et parle simultanément

Q: Qu’est-ce que le full-duplex et pourquoi est-ce important ?

Le full-duplex est une technologie qui permet à deux interlocuteurs de parler en même temps, comme lors d’un appel téléphonique. Contrairement aux modèles classiques d’IA, qui attendent que l’utilisateur ait fini de parler avant de répondre, un système full-duplex réduit la latence et rend les échanges plus naturels. Pour Thinking Machines, cela se traduit par une prise de parole en 0,40 seconde , contre près d’ 1,2 seconde pour certains concurrents.

Q: Pourquoi Thinking Machines ne propose-t-elle pas encore son modèle au grand public ?

Thinking Machines a lancé TML-Interaction-Small en phase de recherche preview, réservée à un cercle restreint de chercheurs. L’entreprise n’a pas communiqué de date précise pour une ouverture au public, se contentant d’annoncer une disponibilité « plus tard cette année ». Plusieurs raisons expliquent ce délai : la nécessité de valider les performances à grande échelle, la préparation des infrastructures et les ajustements en fonction des retours des premiers utilisateurs.

Quatorze mois après son départ d'OpenAI, Mira Murati, figure majeure de l'intelligence artificielle, présente le premier modèle de Thinking Machines. Contr

Hugo Garnier

Tech & Digital Sciences Education

12 mai 2026 à 09:47 Mis à jour le 12 mai 2026 à 11:02 6 min de lecture 4 vues

12 mai

Quatorze mois après son départ d'OpenAI, Mira Murati, figure majeure de l'intelligence artificielle, présente le premier modèle de Thinking Machines. Contrairement aux grands modèles de langage traditionnels, cette innovation permet d'écouter, de voir et de répondre en simultané, comme le rapporte Numerama.

Ce qu'il faut retenir

Thinking Machines dévoile TML-Interaction-Small, un modèle d'interaction en temps réel, le 11 mai 2026.
L'IA utilise une architecture full-duplex, permettant des échanges fluides et sans latence, avec une prise de parole en 0,40 seconde.
Le modèle repose sur un Mixture-of-Experts de 276 milliards de paramètres, dont 12 milliards actifs à chaque appel.
Thinking Machines a levé 2 milliards de dollars en juillet 2025 et emploie une cinquantaine de salariés, dont d'anciens cadres d'OpenAI.
Le modèle est actuellement en phase de recherche preview, avec une ouverture au public prévue plus tard en 2026.

Une rupture technologique dans l'interaction homme-machine

Thinking Machines sort de l'ombre avec un modèle qui rompt avec les conventions des assistants vocaux actuels. Contrairement à GPT, Claude ou Gemini, TML-Interaction-Small ne se concentre pas sur le raisonnement pur, mais sur la qualité de l'interaction. L'IA est conçue pour écouter et répondre en même temps, comme un interlocuteur humain, explique Numerama.

L'architecture repose sur deux composants : un modèle d'interaction léger, gérant le temps réel, la voix et les interjections, et un background model plus lourd, dédié au raisonnement complexe et aux recherches web. Pendant que l'IA discute, elle peut simultanément chercher des informations ou effectuer des tâches, une capacité que les humains, monotâches, ne peuvent égaler. Sur le benchmark FD-bench v1.5, conçu pour évaluer la qualité des interactions, TML-Interaction-Small obtient 77,8 points, contre 46,8 pour GPT-realtime-2.0 en mode minimal.

Des performances qui défient les standards actuels

Les résultats sont éloquents. La latence de prise de parole du modèle chute à 0,40 seconde, contre 0,57 pour Gemini-3.1-flash-live et 1,18 pour GPT-realtime-2.0 minimal. À titre de comparaison, une conversation humaine fluide se situe entre 200 et 250 millisecondes entre deux tours de parole. Le modèle excelle également dans la gestion du temps : contrairement aux grands modèles de langage classiques, qui ne « savent » l'heure que si on la leur précise, TML-Interaction-Small peut suivre des instructions comme « rappelle-moi de vérifier la température toutes les 4 minutes », un atout pour des usages en laboratoire, en chaîne de production ou en santé.

Ces performances s'expliquent par une conception innovante : l'IA découpe les conversations en micro-tours de 200 millisecondes, ajustant ses réponses en temps réel. Comme le souligne Sean Goedecke, ingénieur ayant analysé le modèle, cette approche rappelle les travaux d'autres acteurs comme Kyutai avec Moshi ou Nvidia avec Nemotron-VoiceChat. Cependant, la nouveauté de Thinking Machines réside dans le couplage avec un agent de raisonnement en arrière-plan, qui booste les performances sur certains benchmarks, passant de 76 % à 96 % sur BigBench Audio.

Une levée de fonds record et une équipe expérimentée

Fondée en 2024 par Mira Murati, ex-directrice technique d'OpenAI, Thinking Machines a rapidement attiré l'attention du secteur. En juillet 2025, l'entreprise a levé 2 milliards de dollars lors d'un tour de table seed, valorisant la société à 12 milliards de dollars. Ce financement, présenté comme le plus important de l'histoire pour une levée de fonds de ce type, a permis de recruter une cinquantaine de talents, dont John Schulman, cofondateur d'OpenAI, et plusieurs anciens cadres de la firme californienne partis à la suite de Murati.

Thinking Machines n'en est pas à son coup d'essai. Avant TML-Interaction-Small, l'entreprise avait déjà lancé Tinker, une API de fine-tuning en octobre 2025. La société mise sur une stratégie d'ouverture progressive, avec une première phase de recherche preview réservée à un cercle restreint de chercheurs. Une ouverture au grand public est annoncée pour plus tard en 2026, sans date précise communiquée. Pour l'instant, le code source n'a pas été publié, malgré les engagements initiaux de Murati sur un « composant open source significatif » dans le premier produit de l'entreprise.

Un modèle prometteur, mais encore limité au monde professionnel

Malgré ses atouts, TML-Interaction-Small ne devrait pas bouleverser immédiatement le paysage des assistants vocaux grand public. OpenAI domine toujours la distribution avec ChatGPT, tandis que Google mise sur Gemini Live pour Android et Anthropic sur d'autres axes. Thinking Machines cible d'abord les développeurs et les chercheurs, pour qui cette technologie représente une piste sérieuse. Sean Goedecke souligne que le modèle pourrait devenir un outil puissant pour des cas d'usage professionnels, notamment dans les domaines où la réactivité et la multitâche sont cruciales.

Pour le grand public, il faudra patienter. L'intégration dans des produits utilisables n'est pas attendue avant plusieurs mois. En attendant, la promesse d'un assistant vocal qui ne coupe plus la parole comme un interviewer maladroit pourrait suffire à susciter l'intérêt. Comme le note Numerama, l'innovation réside moins dans l'idée de full-duplex — déjà explorée par d'autres — que dans son couplage avec un agent de raisonnement, une combinaison qui pourrait redéfinir les interactions homme-IA.

Et maintenant ?

Thinking Machines devra démontrer la viabilité de son modèle à plus grande échelle. L'ouverture au public prévue pour fin 2026 sera un test décisif, tout comme la publication du code source, attendue par une partie de la communauté. Si l'entreprise tient ses promesses d'ouverture et de performance, elle pourrait s'imposer comme un acteur clé dans l'évolution des assistants vocaux. Pour l'heure, la balle est dans son camp : réussir à passer de la phase de recherche à une adoption massive, un défi que peu d'acteurs ont relevé jusqu'à présent.

Le full-duplex est une technologie qui permet à deux interlocuteurs de parler en même temps, comme lors d’un appel téléphonique. Contrairement aux modèles classiques d’IA, qui attendent que l’utilisateur ait fini de parler avant de répondre, un système full-duplex réduit la latence et rend les échanges plus naturels. Pour Thinking Machines, cela se traduit par une prise de parole en 0,40 seconde, contre près d’1,2 seconde pour certains concurrents.

Thinking Machines a lancé TML-Interaction-Small en phase de recherche preview, réservée à un cercle restreint de chercheurs. L’entreprise n’a pas communiqué de date précise pour une ouverture au public, se contentant d’annoncer une disponibilité « plus tard cette année ». Plusieurs raisons expliquent ce délai : la nécessité de valider les performances à grande échelle, la préparation des infrastructures et les ajustements en fonction des retours des premiers utilisateurs.

Thinking Machines, fondée par Mira Murati, lance un modèle d'IA en temps réel qui écoute et parle simultanément

Ce qu'il faut retenir

Une rupture technologique dans l'interaction homme-machine

Des performances qui défient les standards actuels

Une levée de fonds record et une équipe expérimentée

Un modèle prometteur, mais encore limité au monde professionnel

Et maintenant ?

Tags

Commentaires

Articles similaires

AMD préparerait une nouvelle carte graphique d'entrée de gamme pour 2026

Autonomie des voitures électriques par grand froid : l’Automobile Club Norvégien publie un test accablant sur 24 modèles

Un spyware Android préinstallé menace les nouveaux smartphones : le malware LunaSpy inquiète les experts

Microsoft place sa filiale israélienne sous tutelle française après le limogeage de son directeur

Nous respectons votre vie privée

Personnaliser mes choix

Nos partenaires