Pourquoi les modèles d’IA grand public comme ChatGPT ne peuvent-ils pas retranscrire ces manuscrits ?

Une intelligence artificielle française décrypte 32 000 manuscrits médiévaux en quatre mois

Une équipe de chercheurs français vient de franchir un cap historique dans la préservation du patrimoine médiéval. Selon Futura Sciences, des scientifiques

Hugo Garnier

Tech & Digital Sciences Education

10 juin 2026 à 18:00 Mis à jour le 11 juin 2026 à 00:18 6 min de lecture 5 vues

10 juin

Une équipe de chercheurs français vient de franchir un cap historique dans la préservation du patrimoine médiéval. Selon Futura Sciences, des scientifiques de l’Institut national de recherche en sciences et technologies du numérique (Inria) ont réussi à retranscrire 32 763 manuscrits médiévaux en seulement quatre mois, grâce à une intelligence artificielle spécialement conçue pour déchiffrer les écritures anciennes.

Ce qu'il faut retenir

Une IA a retranscrit 32 763 manuscrits médiévaux en quatre mois, contre plusieurs années pour un humain.
Le projet CoMMa a produit un corpus de plus de 3 milliards de mots en latin et ancien français, couvrant les IXe au XVIe siècle.
L’approche repose sur la reconnaissance graphique caractère par caractère, évitant les « hallucinations » des modèles grand public.
Un corpus d’entraînement de 200 000 lignes issues de 300 manuscrits a été nécessaire pour calibrer l’algorithme.
Les transcriptions, disponibles en ligne, affichent un taux d’erreur moyen de 9,7 % et sont accessibles à tous les chercheurs.

Ce projet, baptisé CoMMa (Corpus of Multilingual Medieval Archives), marque un tournant dans l’archivage historique. Jusqu’à présent, la numérisation des manuscrits progressait, mais leur retranscription restait un processus long et fastidieux. Les paléographes pouvaient consacrer des années à décrypter un seul document, ralentissant considérablement la recherche. Avec cette IA, les chercheurs estiment avoir divisé par cent le temps nécessaire pour rendre ces textes accessibles.

L’exploit technique repose sur une méthode radicalement différente de celle des modèles d’IA grand public comme ChatGPT ou Mistral. Ces derniers, fondés sur la prédiction statistique, inventent des mots lorsqu’ils ne les reconnaissent pas – un phénomène appelé « hallucination ». Or, dans les manuscrits médiévaux, l’orthographe n’était pas fixe : deux copies d’un même texte pouvaient présenter jusqu’à 50 % de variations. Thibault Clérice, chercheur en humanités computationnelles à l’Inria et pilote du projet, explique :

« En latin médiéval, entre 35 et 40 % des mots sont abrégés au XIVe siècle. Dans certains traités de médecine, seule la moitié des lettres d’un mot est présente. Les grands modèles de langage inventent là où ils ne savent pas. Notre approche, fondée sur la reconnaissance graphique caractère par caractère, évite ce piège. »

Pour y parvenir, l’équipe a combiné deux outils open source : Kraken et eScriptorium. Contrairement aux modèles prédictifs, cette méthode privilégie les erreurs de reconnaissance (comme confondre « ri » et « n ») plutôt que les inventions, moins dommageables pour la recherche historique. Le résultat est un corpus unique de plus de 3 milliards de mots, principalement en latin et en ancien français, couvrant une période allant du IXe au XVIe siècle.

Avant de lancer CoMMa, les chercheurs ont dû construire un socle solide : le projet CATMuS (Consistent Approaches to Transcribing Manuscripts), lancé en 2022. Celui-ci a consisté à retranscrire manuellement 200 000 lignes issues de 300 manuscrits différents, dans 11 langues, sans corriger les abréviations, les fautes de copiste ou les inversions de lettres. L’objectif était de s’approcher au plus près de la réalité brute des documents. Ce travail colossal a permis de calibrer l’algorithme pour l’appliquer à grande échelle sur les fonds numérisés de Gallica, de la bibliothèque Bodléienne d’Oxford, de la Bibliothèque de l’État de Bavière à Munich ou encore de la plateforme suisse E-Codices.

Les résultats sont encourageants : sur un échantillon de 670 manuscrits, le taux d’erreur moyen s’élève à 9,7 %. Les métadonnées de chaque document indiquent même que plus de 80 % des lignes sont correctement reconnues dans la plupart des cas. Seuls les manuscrits tardifs à écriture cursive, sous-représentés dans les données d’entraînement, affichent des scores moins satisfaisants. L’ensemble du corpus CoMMa est désormais accessible en ligne, librement téléchargeable par les chercheurs et les passionnés d’histoire médiévale.

Cette avancée ouvre des perspectives inédites pour la recherche. Des textes inédits, inaccessibles depuis des siècles dans des bibliothèques fermées au public, peuvent désormais être étudiés. Pour les philologues, historiens et médiévistes, c’est une mine d’or : le corpus en ancien français est, à lui seul, quarante fois plus volumineux qu’auparavant. Thibault Clérice précise :

« Notre objectif n’était pas seulement de gagner du temps, mais de rendre ces documents lisibles par les machines et exploitables par les chercheurs. Avec CoMMa, on passe d’un goulot d’étranglement à une autoroute de la connaissance. »

Et maintenant ?

Les chercheurs prévoient d’améliorer encore la précision de leur modèle en intégrant davantage de manuscrits cursifs et en affinant les algorithmes de reconnaissance. À plus long terme, cette technologie pourrait être adaptée à d’autres langues anciennes, comme le grec byzantin ou l’arabe médiéval. Pour les bibliothèques et archives, l’enjeu est désormais de numériser et de rendre accessibles des fonds encore méconnus, tout en formant les chercheurs à l’utilisation de ces nouveaux outils.

Cette innovation illustre une fois de plus le rôle clé de l’intelligence artificielle dans la préservation du patrimoine. Comme le souligne Futura Sciences, elle rappelle aussi les limites actuelles des modèles grand public, inadaptés aux spécificités des écritures anciennes. Une avancée qui, au-delà des manuscrits médiévaux, pourrait bien redéfinir les méthodes de recherche en sciences humaines.

Ces modèles, fondés sur la prédiction statistique, inventent des mots lorsqu’ils ne les reconnaissent pas, un phénomène appelé « hallucination ». Dans les manuscrits médiévaux, l’orthographe n’était pas fixe : deux copies d’un même texte pouvaient présenter jusqu’à 50 % de variations. L’approche de l’Inria, fondée sur la reconnaissance graphique caractère par caractère, évite ce piège en privilégiant les erreurs de reconnaissance (comme confondre « ri » et « n ») plutôt que les inventions.

Une intelligence artificielle française décrypte 32 000 manuscrits médiévaux en quatre mois

Ce qu'il faut retenir

Et maintenant ?

Tags

Commentaires

Articles similaires

WhatsApp : la rumeur sur l'espionnage par l'IA de Meta est un faux, confirme Capital

L’IA recrute à plein régime : quelles villes françaises et européennes se distinguent en 2026 ?

SpaceX en route vers une entrée historique en Bourse avec un objectif de levée record

Microsoft corrige 206 failles en juin 2026 : l’IA en cause dans un record historique

Nous respectons votre vie privée

Personnaliser mes choix

Nos partenaires