L’Internet Archive, institution emblématique de la préservation du Web depuis trois décennies, voit son avenir compromis par des obstacles juridiques et techniques. Selon Le Monde, cette organisation à but non lucratif, qui a accumulé des milliards de pages web, de logiciels et de livres numériques, doit aujourd’hui faire face à des défis majeurs, aggravés par la montée en puissance de l’intelligence artificielle.

Ce qu'il faut retenir

  • L’Internet Archive a été fondée en 1996 pour archiver le Web et préserver sa mémoire.
  • L’organisation conserve des milliards de pages web, de logiciels et de livres numériques, accessibles via des plateformes comme Wayback Machine.
  • Ses activités sont aujourd’hui menacées par des litiges juridiques et des contraintes techniques, notamment liés à l’essor de l’IA.
  • En mars 2023, un tribunal américain a jugé que son projet de numérisation massive de livres était couvert par le fair use.
  • L’Internet Archive a annoncé en avril 2026 une collecte de fonds record de 10 millions de dollars pour poursuivre ses missions.

Un projet né dans l’effervescence des débuts d’Internet

Créée en 1996 par l’informaticien Brewster Kahle, l’Internet Archive s’est donnée pour mission de préserver la mémoire du Web face à sa volatilité. L’organisation a depuis collecté plus de 850 milliards de pages web, des millions de logiciels, ainsi que des archives audiovisuelles. Sa plateforme phare, Wayback Machine, permet aux internautes d’accéder à des versions historiques de sites disparus, un service utilisé par des chercheurs, des historiens et le grand public. « Notre objectif est de donner accès à la connaissance pour tous, sans barrière », a rappelé Kahle dans une interview accordée au Monde en 2025.

Des tensions juridiques croissantes avec l’industrie culturelle

L’Internet Archive a longtemps été critiquée par les éditeurs et les ayants droit pour son projet de numérisation de livres, lancé en 2004. En mars 2023, un tribunal fédéral américain a finalement tranché en sa faveur, estimant que son action relevait du fair use, une exception au droit d’auteur. Pourtant, cette victoire n’a pas mis fin aux tensions. Quatre grands éditeurs américains – Hachette, HarperCollins, Penguin Random House et Wiley – ont depuis déposé de nouvelles plaintes, arguant que l’organisation contourne les règles du copyright. « Ces litiges menacent notre capacité à poursuivre notre mission », a souligné Cory Doctorow, conseiller spécial de l’Internet Archive.

L’intelligence artificielle, nouveau défi pour l’archivage

L’essor des outils d’IA générative a ajouté une couche de complexité supplémentaire. Les modèles d’IA s’entraînent souvent sur des données scrapées depuis le Web, y compris des archives de l’Internet Archive. Or, l’organisation n’a pas toujours les moyens juridiques ou techniques de contrôler ces usages. « On nous demande de jouer les pompiers, alors que notre budget est déjà sous pression », a expliqué un porte-parole sous couvert d’anonymat. En parallèle, l’IA pose la question de la désinformation : comment archiver des contenus générés artificiellement, souvent éphémères et modifiables en temps réel ?

Une collecte de fonds record pour résister

Face à ces défis, l’Internet Archive a lancé en avril 2026 une campagne de financement participatif visant à lever 10 millions de dollars. L’objectif ? Renforcer ses infrastructures techniques, sécuriser ses serveurs et embaucher des juristes spécialisés en propriété intellectuelle. « Sans ces fonds, notre capacité à archiver pourrait être réduite de 50 % d’ici deux ans », a prévenu Kahle. La campagne, soutenue par des personnalités comme l’entrepreneur Elon Musk et la fondatrice de Wikipédia, Jimmy Wales, a déjà dépassé les 8 millions de dollars en un mois. — Une partie des fonds servira aussi à développer des outils de détection des contenus générés par IA, afin de mieux distinguer l’authentique du faux.

Et maintenant ?

Les prochains mois seront décisifs pour l’Internet Archive. Une décision de justice dans l’un des procès en cours pourrait, d’ici la fin 2026, redéfinir son cadre d’action. Par ailleurs, le Congrès américain examine actuellement une réforme du Digital Millennium Copyright Act (DMCA), qui pourrait inclure des dispositions spécifiques pour les archives numériques. Enfin, l’organisation planifie le lancement d’une nouvelle version de Wayback Machine, plus résistante aux suppressions massives de sites, d’ici l’été 2027.

Dans un paysage numérique où l’information devient de plus en plus fugace, l’Internet Archive reste un rempart essentiel contre l’oubli. Mais sa survie dépendra autant de ses soutiens financiers que des décisions judiciaires à venir.

Les éditeurs reprochent à l’Internet Archive de violer le droit d’auteur en numérisant et en rendant accessible des livres protégés, même sous le régime du fair use. Ils estiment que cette pratique concurrence le marché de l’édition numérique légale.