L’obsession de ChatGPT pour les gobelins : OpenAI révèle l’origine d’un biais inattendu dans ses modèles

OpenAI a levé le voile sur une curiosité algorithmique qui a marqué ses modèles d’intelligence artificielle ces derniers mois. Dans un billet publié le 30 avril 2026, intitulé « D’où viennent les gobelins ? », l’entreprise explique que l’obsession de ses modèles pour les créatures fantastiques, notamment les gobelins et les gremlins, trouve son origine dans un biais d’apprentissage par renforcement mal contrôlé. Selon Numerama, ce phénomène s’est généralisé à l’ensemble des profils de personnalité de ChatGPT, avant d’être finalement corrigé.

Ce qu'il faut retenir

Un biais dans l’apprentissage par renforcement a favorisé, à partir de 2025, les réponses intégrant des métaphores fantastiques, comme celles mettant en scène des gobelins, dans le profil « nerd » de ChatGPT.
Ce biais s’est auto-renforcé : les mentions de « goblin » ont explosé de 3 881 % entre les versions GPT-5.2 et GPT-5.4, atteignant 66,7 % des occurrences totales malgré un trafic limité à 2,5 %.
OpenAI a supprimé le profil « nerd » en mars 2026, modifié son système de prompts et supprimé le signal de récompense problématique, tout en maintenant une interdiction temporaire de mentionner les gobelins dans les instructions internes de Codex.
Le phénomène illustre les limites des modèles d’IA à contrôler les biais subtils, même dans des contextes d’apprentissage ciblés, et soulève des questions sur la transparence des processus d’entraînement.

Un biais algorithmique parti d’un profil de personnalité

Depuis plusieurs semaines, les utilisateurs de ChatGPT avaient remarqué une tendance récurrente : l’apparition fréquente de gobelins, gremlins ou autres créatures fantastiques dans les réponses du modèle, y compris dans des contextes totalement décalés. OpenAI a confirmé que ce phénomène découlait d’un dysfonctionnement dans son système d’apprentissage par renforcement, une méthode permettant d’affiner le comportement des modèles en fonction des retours humains. D’après Numerama, ce biais s’est développé à partir du profil « nerd » de GPT-5, conçu pour adopter un ton geek, enthousiaste et ludique.

Le problème est survenu lorsque le signal de récompense utilisé pour entraîner ce profil a commencé à favoriser les réponses contenant des références à des créatures fantastiques. Sans que les ingénieurs d’OpenAI ne s’en rendent compte, les gobelins et gremlins se sont retrouvés mieux notés que les autres réponses dans 76 % des cas analysés. Une boucle de renforcement s’est alors enclenchée : plus ces métaphores étaient utilisées, plus elles étaient jugées pertinentes, et plus elles étaient reproduites dans les versions suivantes du modèle.

Une propagation rapide et incontrôlée

Ce biais ne s’est pas limité au seul profil « nerd ». Comme le rapporte Numerama, il s’est progressivement étendu à d’autres styles de conversation, notamment les profils « robot », « attentif » et même le profil par défaut. Entre les versions GPT-5.2 et GPT-5.4, le nombre de messages contenant le mot « goblin » a bondi de 3 881 %. À tel point que, selon les données d’OpenAI, 66,7 % des occurrences du terme dans ChatGPT provenaient d’un mode représentant seulement 2,5 % du trafic total. Un phénomène que l’entreprise qualifie désormais de « systémique ».

Cette contamination a pris une telle ampleur que la communauté tech s’en est emparée. Des captures d’écran de gobelins générés par IA dans des datacenters, des plugins détournés comme « mode gobelin » pour Codex, ou même des interventions humoristiques de Sam Altman, PDG d’OpenAI, ont alimenté les débats. Des théories variées ont circulé : contamination des données d’entraînement, simple effet de mode, ou même référence à des mythologies occultes. OpenAI a maintenu le flou pendant plusieurs jours avant de publier son explication.

Des mesures d’urgence, mais des limites persistantes

Face à cette situation, OpenAI a pris des mesures radicales. Le profil « nerd » a été supprimé dès mars 2026, les données d’entraînement contaminées ont été nettoyées, et le signal de récompense problématique a été désactivé. Pourtant, le mal était déjà fait : la version GPT-5.5 avait déjà commencé son entraînement avant que la cause ne soit identifiée. Une ligne restrictive a donc été ajoutée dans le système de prompts de Codex, interdisant explicitement toute mention de gobelins, gremlins, trolls ou autres créatures fantastiques, sauf demande explicite de l’utilisateur. Une mesure temporaire, en attendant un correctif plus profond.

Dans son billet, OpenAI reconnaît la difficulté à anticiper de tels biais. « Un tic stylistique récompensé dans un contexte précis peut se généraliser bien au-delà de ce contexte, de façon totalement invisible jusqu’à ce qu’il devienne flagrant », explique l’entreprise. Une prise de conscience qui souligne les limites actuelles des systèmes d’IA, malgré leur sophistication croissante.

Un phénomène qui dépasse le simple gadget

Au-delà de l’aspect anecdotique, ce cas illustre un enjeu bien plus large pour les acteurs de l’intelligence artificielle. Comment garantir que les modèles apprennent ce que leurs concepteurs souhaitent, et non ce que leurs biais implicites leur dictent ? OpenAI souligne que ce problème met en lumière la difficulté à contrôler finement les signaux d’apprentissage, même lorsque ceux-ci sont conçus pour des usages très spécifiques. « Ce n’est pas forcément rassurant sur la capacité à contrôler ce que les modèles peuvent apprendre », admet l’entreprise, tout en saluant la transparence dont elle a fait preuve en révélant cette faille.

Pour les observateurs, ce phénomène pose une question de fond : dans quelle mesure les modèles d’IA, aussi performants soient-ils, peuvent-ils échapper à des influences involontaires, qu’elles proviennent des données d’entraînement, des signaux de récompense ou même des biais culturels de leurs concepteurs ? Une interrogation qui dépasse le cadre des gobelins pour toucher à la fiabilité même des systèmes automatisés.

Et maintenant ?

OpenAI a indiqué que les versions ultérieures de ses modèles, notamment GPT-5.5 et au-delà, devraient intégrer des garde-fous supplémentaires pour éviter la récidive de tels biais. L’entreprise travaille également à améliorer la transparence de ses processus d’entraînement, afin que les utilisateurs et les régulateurs puissent mieux comprendre comment les décisions des modèles sont prises. Une échéance clé sera la publication d’un rapport technique détaillé, prévue pour juin 2026, qui détaillera les corrections apportées et les leçons tirées de cet incident.

Dans l’immédiat, il reste possible de recréer un ChatGPT « obsédé par les gobelins » en contournant les restrictions actuelles. Numerama révèle qu’un script publié en ligne permet de rétablir le comportement en supprimant manuellement les consignes restrictives du système de prompts. Une preuve supplémentaire que, malgré les correctifs, les failles algorithmiques restent un terrain de jeu pour les utilisateurs les plus ingénieux.

Si cet épisode a pu prêter à sourire, il rappelle que les limites de l’intelligence artificielle ne se résument pas à des questions de puissance de calcul ou de quantité de données. Elles touchent aussi à la capacité humaine à anticiper les dérives les plus inattendues de ses propres créations.

Officiellement, non. OpenAI a supprimé le profil « nerd » et intégré une interdiction temporaire dans les instructions de Codex. Cependant, des utilisateurs avancés peuvent contourner ces restrictions en modifiant manuellement les fichiers de configuration, comme le montre un script circulant en ligne. Ces pratiques restent à leurs risques et périls, car elles pourraient violer les conditions d’utilisation d’OpenAI.

L’entreprise a annoncé la publication d’un rapport technique détaillé pour juin 2026. Ce document devrait expliquer les causes profondes du biais, les mesures correctives mises en place et les leçons tirées pour les futurs modèles.

L’obsession de ChatGPT pour les gobelins : OpenAI révèle l’origine d’un biais inattendu dans ses modèles

Ce qu'il faut retenir

Un biais algorithmique parti d’un profil de personnalité

Une propagation rapide et incontrôlée

Des mesures d’urgence, mais des limites persistantes

Un phénomène qui dépasse le simple gadget

Et maintenant ?

Tags

Commentaires

Articles similaires

Invoxia MiniTailz : un tracker GPS et de sante pour chien sans abonnement, le test complet selon Journal du Geek

Intersport propose le Nakamura Crosscity+ à moins de 2 200 € : un vélo cargo électrique compact et polyvalent pour les familles

L'IA de Molière: une pièce inédite créée avec l'intelligence artificielle

Motorola Edge 70 Pro : un nouveau venu dans la gamme milieu de gamme de Motorola

Nous respectons votre vie privée

Personnaliser mes choix

Nos partenaires