L’intelligence artificielle générative, souvent présentée comme un outil prometteur pour assister les professionnels de santé, reste encore largement incapable de poser des diagnostics précoces fiables sans supervision humaine. Selon une étude publiée le 14 avril 2026 par le réseau hospitalier Mass General Brigham, basé à Boston, les grands modèles de langage (LLM) échouent à proposer un diagnostic différentiel approprié dans plus de 80 % des cas. Ces résultats, issus de tests menés sur 29 vignettes cliniques standardisées, soulignent les limites actuelles de l’IA dans un domaine où la précision est cruciale. Comme le rapporte Euronews FR.

Ce qu'il faut retenir

  • Plus de 80 % d’échecs : tous les modèles testés échouent à produire un diagnostic différentiel adéquat dans plus de 80 % des cas.
  • Des performances variables : les taux de réussite pour le diagnostic final varient entre 60 % et plus de 90 % selon le modèle.
  • Une amélioration avec des données complètes : les LLM voient leur précision augmenter lorsqu’ils disposent de résultats de laboratoire ou d’imagerie.
  • Des leaders identifiés : Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash et Gemini 3.0 Pro forment le groupe de tête.
  • Un outil de mesure dédié : les chercheurs ont utilisé PrIME-LLM, un nouvel outil évaluant les capacités des modèles à différentes étapes du raisonnement clinique.
  • Un rappel essentiel : l’IA ne doit pas être utilisée pour prendre des décisions cliniques sans supervision humaine, selon les auteurs de l’étude.

Une étude qui teste les limites des modèles d’IA en médecine

Pour évaluer les capacités des grands modèles de langage, les chercheurs de Mass General Brigham ont analysé le fonctionnement de 21 LLM, dont les dernières versions de Claude, DeepSeek, Gemini, GPT et Grok. Ces modèles ont été soumis à un test rigoureux : ils devaient établir un diagnostic initial, prescrire des examens, parvenir à un diagnostic final et planifier un traitement, le tout à partir de 29 vignettes cliniques standardisées. PrIME-LLM, l’outil développé pour cette étude, a permis de mesurer leur performance à chaque étape du processus. Selon Euronews FR.

Les chercheurs ont simulé des cas cliniques en fournissant progressivement des informations aux modèles : d’abord des données de base comme l’âge, le sexe et les symptômes du patient, puis les résultats d’un examen clinique et enfin des analyses de laboratoire. Un diagnostic différentiel est normalement indispensable pour passer à l’étape suivante, mais dans le cadre de l’étude, les modèles recevaient des informations supplémentaires même en cas d’échec à cette étape. Pourtant, aucun n’a réussi à proposer un diagnostic différentiel approprié dans plus de 80 % des cas.

Des forces et des faiblesses qui se confirment

Les résultats montrent que les LLM excellent lorsque toutes les données sont disponibles, avec des taux de réussite au diagnostic final allant de 60 % à plus de 90 % selon le modèle. Cependant, leur capacité à gérer l’incertitude et à générer un diagnostic différentiel reste très limitée. Arya Rao, auteure principale de l’étude, souligne que « ces modèles sont très doués pour proposer un diagnostic final une fois que toutes les données sont disponibles, mais ils peinent au début d’un cas, lorsqu’il y a peu d’informations ». Un constat qui met en lumière leur incapacité à reproduire « l’art de la médecine », selon Marc Succi, co-auteur de l’étude.

Les chercheurs ont également observé que la plupart des LLM amélioraient leur précision diagnostique lorsqu’ils avaient accès à des résultats de laboratoire et d’imagerie. Parmi les modèles testés, Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash et Gemini 3.0 Pro se sont distingués, formant le groupe de tête. Pourtant, même ces modèles ne sont pas encore prêts pour une utilisation clinique autonome.

Un appel à la prudence : l’IA ne peut remplacer le jugement humain

Malgré les progrès des nouvelles versions, les auteurs de l’étude rappellent que les LLM prêts à l’emploi ne disposent pas encore des capacités de raisonnement nécessaires pour un déploiement sûr en pratique clinique. « Malgré les progrès continus, les grands modèles de langage prêts à l’emploi ne sont pas prêts pour un déploiement en pratique clinique sans supervision », a déclaré Marc Succi. « Nos résultats confirment que les LLM utilisés en santé nécessitent toujours la présence d’un “humain dans la boucle” et une supervision très étroite ».

Cette conclusion est partagée par Susana Manso García, membre du groupe de travail Intelligence artificielle et santé numérique de la Société espagnole de médecine de famille et communautaire, qui n’a pas participé à l’étude. Pour elle, ces résultats envoient un message clair au grand public : « L’étude insiste elle-même sur le fait qu’ils ne doivent pas être utilisés pour prendre des décisions cliniques sans supervision ». Elle ajoute que « même si l’intelligence artificielle représente un outil prometteur, le jugement clinique humain reste indispensable ». Sa recommandation est sans équivoque : en cas de problème de santé, il est essentiel de consulter systématiquement un professionnel de santé.

Et maintenant ?

Les auteurs de l’étude estiment que les prochaines versions des LLM pourraient intégrer des mécanismes de raisonnement plus avancés, notamment grâce à des outils comme PrIME-LLM. Cependant, ils rappellent que le déploiement d’une IA médicale sûre passera nécessairement par une validation rigoureuse et une supervision humaine constante. D’ici là, l’utilisation de ces technologies en milieu clinique devrait rester limitée à un rôle d’assistance. Les prochains mois pourraient voir émerger des protocoles plus stricts encadrant leur utilisation, tandis que les éditeurs de modèles d’IA devraient accélérer leurs travaux pour combler le fossé entre performance diagnostique et fiabilité clinique.

Selon les résultats publiés par Mass General Brigham, Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash et Gemini 3.0 Pro forment le groupe de tête. Ces modèles se distinguent par leurs performances supérieures, notamment lorsqu’ils disposent de données complètes comme des résultats de laboratoire ou d’imagerie.

Non, selon les auteurs de l’étude. Même les modèles les plus avancés restent incapables de reproduire pleinement le raisonnement clinique humain, notamment en matière de diagnostic différentiel. Les chercheurs insistent sur le fait que l’IA doit toujours être supervisée par un professionnel de santé, et que son rôle restera probablement limité à un soutien dans les années à venir.