Environ 245 organisations de presse dans neuf pays cherchent à limiter l'accès des intelligences artificielles (IA) aux archives en ligne, notamment via l'Internet Archive. Cette initiative vise à contrer les pratiques des entreprises d'IA qui utilisent ces contenus sans autorisation ni rémunération équitable. La Wayback Machine de l'Internet Archive conserve plus de mille milliards de pages web, offrant ainsi une précieuse source d'informations remontant jusqu'à 1996, provenant de grands médias tels que CNN, The New York Times, The Guardian et USA Today.
Ce qu'il faut retenir
- 245 organisations de presse tentent de bloquer l'accès des IA aux archives en ligne
- L'Internet Archive conserve plus de mille milliards de pages web depuis 1996
- Des rédactions cherchent à limiter l'accès des robots d'exploration pour prévenir toute utilisation abusive par les entreprises d'IA
Des enjeux juridiques et éthiques majeurs
Les médias craignent des violations du droit d'auteur en laissant les IA s'approprier et utiliser ces contenus archivés pour former des modèles de langage. Cette pratique soulève des questions éthiques et juridiques quant à l'utilisation et la rémunération équitable de ces données. Certains médias ont déjà bloqué des robots d'exploration comme ia_archiverbot pour protéger leurs contenus.
Les risques pour les médias et les IA
L'utilisation des archives pour entraîner des IA peut conduire à des litiges pour violation du droit d'auteur. Des entreprises comme Perplexity et OpenAI sont déjà visées en justice pour leur utilisation des contenus archivés. Les médias, à l'instar du New York Times, dénoncent cette pratique qui concurrence directement leur travail journalistique original.