Une équipe de chercheurs français vient de franchir un cap historique dans la préservation du patrimoine médiéval. Selon Futura Sciences, des scientifiques de l’Institut national de recherche en sciences et technologies du numérique (Inria) ont réussi à retranscrire 32 763 manuscrits médiévaux en seulement quatre mois, grâce à une intelligence artificielle spécialement conçue pour déchiffrer les écritures anciennes.
Ce qu'il faut retenir
- Une IA a retranscrit 32 763 manuscrits médiévaux en quatre mois, contre plusieurs années pour un humain.
- Le projet CoMMa a produit un corpus de plus de 3 milliards de mots en latin et ancien français, couvrant les IXe au XVIe siècle.
- L’approche repose sur la reconnaissance graphique caractère par caractère, évitant les « hallucinations » des modèles grand public.
- Un corpus d’entraînement de 200 000 lignes issues de 300 manuscrits a été nécessaire pour calibrer l’algorithme.
- Les transcriptions, disponibles en ligne, affichent un taux d’erreur moyen de 9,7 % et sont accessibles à tous les chercheurs.
Ce projet, baptisé CoMMa (Corpus of Multilingual Medieval Archives), marque un tournant dans l’archivage historique. Jusqu’à présent, la numérisation des manuscrits progressait, mais leur retranscription restait un processus long et fastidieux. Les paléographes pouvaient consacrer des années à décrypter un seul document, ralentissant considérablement la recherche. Avec cette IA, les chercheurs estiment avoir divisé par cent le temps nécessaire pour rendre ces textes accessibles.
L’exploit technique repose sur une méthode radicalement différente de celle des modèles d’IA grand public comme ChatGPT ou Mistral. Ces derniers, fondés sur la prédiction statistique, inventent des mots lorsqu’ils ne les reconnaissent pas – un phénomène appelé « hallucination ». Or, dans les manuscrits médiévaux, l’orthographe n’était pas fixe : deux copies d’un même texte pouvaient présenter jusqu’à 50 % de variations. Thibault Clérice, chercheur en humanités computationnelles à l’Inria et pilote du projet, explique :
« En latin médiéval, entre 35 et 40 % des mots sont abrégés au XIVe siècle. Dans certains traités de médecine, seule la moitié des lettres d’un mot est présente. Les grands modèles de langage inventent là où ils ne savent pas. Notre approche, fondée sur la reconnaissance graphique caractère par caractère, évite ce piège. »
Pour y parvenir, l’équipe a combiné deux outils open source : Kraken et eScriptorium. Contrairement aux modèles prédictifs, cette méthode privilégie les erreurs de reconnaissance (comme confondre « ri » et « n ») plutôt que les inventions, moins dommageables pour la recherche historique. Le résultat est un corpus unique de plus de 3 milliards de mots, principalement en latin et en ancien français, couvrant une période allant du IXe au XVIe siècle.
Avant de lancer CoMMa, les chercheurs ont dû construire un socle solide : le projet CATMuS (Consistent Approaches to Transcribing Manuscripts), lancé en 2022. Celui-ci a consisté à retranscrire manuellement 200 000 lignes issues de 300 manuscrits différents, dans 11 langues, sans corriger les abréviations, les fautes de copiste ou les inversions de lettres. L’objectif était de s’approcher au plus près de la réalité brute des documents. Ce travail colossal a permis de calibrer l’algorithme pour l’appliquer à grande échelle sur les fonds numérisés de Gallica, de la bibliothèque Bodléienne d’Oxford, de la Bibliothèque de l’État de Bavière à Munich ou encore de la plateforme suisse E-Codices.
Les résultats sont encourageants : sur un échantillon de 670 manuscrits, le taux d’erreur moyen s’élève à 9,7 %. Les métadonnées de chaque document indiquent même que plus de 80 % des lignes sont correctement reconnues dans la plupart des cas. Seuls les manuscrits tardifs à écriture cursive, sous-représentés dans les données d’entraînement, affichent des scores moins satisfaisants. L’ensemble du corpus CoMMa est désormais accessible en ligne, librement téléchargeable par les chercheurs et les passionnés d’histoire médiévale.
Cette avancée ouvre des perspectives inédites pour la recherche. Des textes inédits, inaccessibles depuis des siècles dans des bibliothèques fermées au public, peuvent désormais être étudiés. Pour les philologues, historiens et médiévistes, c’est une mine d’or : le corpus en ancien français est, à lui seul, quarante fois plus volumineux qu’auparavant. Thibault Clérice précise :
« Notre objectif n’était pas seulement de gagner du temps, mais de rendre ces documents lisibles par les machines et exploitables par les chercheurs. Avec CoMMa, on passe d’un goulot d’étranglement à une autoroute de la connaissance. »
Cette innovation illustre une fois de plus le rôle clé de l’intelligence artificielle dans la préservation du patrimoine. Comme le souligne Futura Sciences, elle rappelle aussi les limites actuelles des modèles grand public, inadaptés aux spécificités des écritures anciennes. Une avancée qui, au-delà des manuscrits médiévaux, pourrait bien redéfinir les méthodes de recherche en sciences humaines.
Ces modèles, fondés sur la prédiction statistique, inventent des mots lorsqu’ils ne les reconnaissent pas, un phénomène appelé « hallucination ». Dans les manuscrits médiévaux, l’orthographe n’était pas fixe : deux copies d’un même texte pouvaient présenter jusqu’à 50 % de variations. L’approche de l’Inria, fondée sur la reconnaissance graphique caractère par caractère, évite ce piège en privilégiant les erreurs de reconnaissance (comme confondre « ri » et « n ») plutôt que les inventions.