Un projet open source baptisé Obliteratus, récemment publié sur GitHub selon nos confrères de Numerama en mars 2026, promet de supprimer rapidement les mécanismes de refus intégrés aux grands modèles de langage. Cet outil vise à neutraliser les garde-fous des intelligences artificielles (IA) qui conduisent parfois à des réponses telles que "je ne peux pas vous aider avec ça".
Ce qu'il faut retenir
- Obliteratus offre la possibilité de désactiver la censure des IA en un clic
- Il analyse la 'géométrie du refus' pour neutraliser les réponses négatives des IA
- L'outil est limité aux modèles 'open weights' et pourrait rendre les IA plus complaisantes sur des sujets sensibles
Supprimer la censure des IA en un clic
Obliteratus propose une approche radicale en intervenant directement sur les poids des modèles de langage pour éliminer les mécanismes de refus. Plutôt que de contourner les règles par des moyens détournés, cet outil se focalise sur une intervention directe pour supprimer les garde-fous qui restreignent les réponses des IA.
Analyse de la 'géométrie du refus'
Ce projet open source repose sur l'analyse de la 'géométrie du refus' au sein des réseaux de neurones. En identifiant les poids responsables des réponses négatives, Obliteratus cherche à les neutraliser de manière ciblée. Il s'appuie sur treize méthodes d'édition des poids, testées sur 116 modèles open source, pour parvenir à cette neutralisation.
Conséquences et limites
En se concentrant sur les modèles 'open weights' comme LLaMA, Mistral ou Phi, Obliteratus laisse de côté les modèles fermés tels que ChatGPT, Claude ou Gemini. Cependant, en rendant plus accessible la suppression des garde-fous, cet outil pourrait transformer des IA prudentes en des modèles plus conciliants, même sur des sujets délicats.
