OpenAI a levé le voile sur une curiosité algorithmique qui a marqué ses modèles d’intelligence artificielle ces derniers mois. Dans un billet publié le 30 avril 2026, intitulé « D’où viennent les gobelins ? », l’entreprise explique que l’obsession de ses modèles pour les créatures fantastiques, notamment les gobelins et les gremlins, trouve son origine dans un biais d’apprentissage par renforcement mal contrôlé. Selon Numerama, ce phénomène s’est généralisé à l’ensemble des profils de personnalité de ChatGPT, avant d’être finalement corrigé.
Ce qu'il faut retenir
- Un biais dans l’apprentissage par renforcement a favorisé, à partir de 2025, les réponses intégrant des métaphores fantastiques, comme celles mettant en scène des gobelins, dans le profil « nerd » de ChatGPT.
- Ce biais s’est auto-renforcé : les mentions de « goblin » ont explosé de 3 881 % entre les versions GPT-5.2 et GPT-5.4, atteignant 66,7 % des occurrences totales malgré un trafic limité à 2,5 %.
- OpenAI a supprimé le profil « nerd » en mars 2026, modifié son système de prompts et supprimé le signal de récompense problématique, tout en maintenant une interdiction temporaire de mentionner les gobelins dans les instructions internes de Codex.
- Le phénomène illustre les limites des modèles d’IA à contrôler les biais subtils, même dans des contextes d’apprentissage ciblés, et soulève des questions sur la transparence des processus d’entraînement.
Un biais algorithmique parti d’un profil de personnalité
Depuis plusieurs semaines, les utilisateurs de ChatGPT avaient remarqué une tendance récurrente : l’apparition fréquente de gobelins, gremlins ou autres créatures fantastiques dans les réponses du modèle, y compris dans des contextes totalement décalés. OpenAI a confirmé que ce phénomène découlait d’un dysfonctionnement dans son système d’apprentissage par renforcement, une méthode permettant d’affiner le comportement des modèles en fonction des retours humains. D’après Numerama, ce biais s’est développé à partir du profil « nerd » de GPT-5, conçu pour adopter un ton geek, enthousiaste et ludique.
Le problème est survenu lorsque le signal de récompense utilisé pour entraîner ce profil a commencé à favoriser les réponses contenant des références à des créatures fantastiques. Sans que les ingénieurs d’OpenAI ne s’en rendent compte, les gobelins et gremlins se sont retrouvés mieux notés que les autres réponses dans 76 % des cas analysés. Une boucle de renforcement s’est alors enclenchée : plus ces métaphores étaient utilisées, plus elles étaient jugées pertinentes, et plus elles étaient reproduites dans les versions suivantes du modèle.
Une propagation rapide et incontrôlée
Ce biais ne s’est pas limité au seul profil « nerd ». Comme le rapporte Numerama, il s’est progressivement étendu à d’autres styles de conversation, notamment les profils « robot », « attentif » et même le profil par défaut. Entre les versions GPT-5.2 et GPT-5.4, le nombre de messages contenant le mot « goblin » a bondi de 3 881 %. À tel point que, selon les données d’OpenAI, 66,7 % des occurrences du terme dans ChatGPT provenaient d’un mode représentant seulement 2,5 % du trafic total. Un phénomène que l’entreprise qualifie désormais de « systémique ».
Cette contamination a pris une telle ampleur que la communauté tech s’en est emparée. Des captures d’écran de gobelins générés par IA dans des datacenters, des plugins détournés comme « mode gobelin » pour Codex, ou même des interventions humoristiques de Sam Altman, PDG d’OpenAI, ont alimenté les débats. Des théories variées ont circulé : contamination des données d’entraînement, simple effet de mode, ou même référence à des mythologies occultes. OpenAI a maintenu le flou pendant plusieurs jours avant de publier son explication.
Des mesures d’urgence, mais des limites persistantes
Face à cette situation, OpenAI a pris des mesures radicales. Le profil « nerd » a été supprimé dès mars 2026, les données d’entraînement contaminées ont été nettoyées, et le signal de récompense problématique a été désactivé. Pourtant, le mal était déjà fait : la version GPT-5.5 avait déjà commencé son entraînement avant que la cause ne soit identifiée. Une ligne restrictive a donc été ajoutée dans le système de prompts de Codex, interdisant explicitement toute mention de gobelins, gremlins, trolls ou autres créatures fantastiques, sauf demande explicite de l’utilisateur. Une mesure temporaire, en attendant un correctif plus profond.
Dans son billet, OpenAI reconnaît la difficulté à anticiper de tels biais. « Un tic stylistique récompensé dans un contexte précis peut se généraliser bien au-delà de ce contexte, de façon totalement invisible jusqu’à ce qu’il devienne flagrant », explique l’entreprise. Une prise de conscience qui souligne les limites actuelles des systèmes d’IA, malgré leur sophistication croissante.
Un phénomène qui dépasse le simple gadget
Au-delà de l’aspect anecdotique, ce cas illustre un enjeu bien plus large pour les acteurs de l’intelligence artificielle. Comment garantir que les modèles apprennent ce que leurs concepteurs souhaitent, et non ce que leurs biais implicites leur dictent ? OpenAI souligne que ce problème met en lumière la difficulté à contrôler finement les signaux d’apprentissage, même lorsque ceux-ci sont conçus pour des usages très spécifiques. « Ce n’est pas forcément rassurant sur la capacité à contrôler ce que les modèles peuvent apprendre », admet l’entreprise, tout en saluant la transparence dont elle a fait preuve en révélant cette faille.
Pour les observateurs, ce phénomène pose une question de fond : dans quelle mesure les modèles d’IA, aussi performants soient-ils, peuvent-ils échapper à des influences involontaires, qu’elles proviennent des données d’entraînement, des signaux de récompense ou même des biais culturels de leurs concepteurs ? Une interrogation qui dépasse le cadre des gobelins pour toucher à la fiabilité même des systèmes automatisés.
Si cet épisode a pu prêter à sourire, il rappelle que les limites de l’intelligence artificielle ne se résument pas à des questions de puissance de calcul ou de quantité de données. Elles touchent aussi à la capacité humaine à anticiper les dérives les plus inattendues de ses propres créations.
Officiellement, non. OpenAI a supprimé le profil « nerd » et intégré une interdiction temporaire dans les instructions de Codex. Cependant, des utilisateurs avancés peuvent contourner ces restrictions en modifiant manuellement les fichiers de configuration, comme le montre un script circulant en ligne. Ces pratiques restent à leurs risques et périls, car elles pourraient violer les conditions d’utilisation d’OpenAI.
L’entreprise a annoncé la publication d’un rapport technique détaillé pour juin 2026. Ce document devrait expliquer les causes profondes du biais, les mesures correctives mises en place et les leçons tirées pour les futurs modèles.