Les meilleures IA échouent au nouveau test d'humanité ARC-AGI-3 selon Numerama

Le 27 mars 2026, Numerama rapporte la publication d'une nouvelle version du benchmark ARC-AGI, baptisée ARC-AGI-3. Ce test évalue les systèmes d'IA dits 'a

Hugo Garnier

Tech & Digital Sciences Education

31 mars 2026 à 11:27 Mis à jour le 31 mars 2026 à 12:39 2 min de lecture 10 vues

31 mars

Le 27 mars 2026, Numerama rapporte la publication d'une nouvelle version du benchmark ARC-AGI, baptisée ARC-AGI-3. Ce test évalue les systèmes d'IA dits 'agentiques' capables d'agir et d'apprendre dans des environnements interactifs. Malgré leurs performances remarquables ailleurs, les modèles les plus avancés échouent largement face à ce nouveau défi.

Ce qu'il faut retenir

ARC-AGI-3 remplace les puzzles statiques par des environnements interactifs.
Les systèmes d'IA de pointe restent sous 1 % de réussite malgré leurs performances record sur d'autres benchmarks.
Le test mesure l'efficacité d'apprentissage en comparant le nombre d'actions d'un agent à celui d'un humain.

Nouveaux défis pour les IA

Alors que la compétition dans le domaine de l'intelligence artificielle s'intensifie, les modèles tels que Gemini 3.1 Pro, GPT-5.4 ou Opus 4.6 affichent des résultats en constante progression sur les benchmarks traditionnels. Cependant, face au test spécifique ARC-AGI-3, tous se retrouvent en échec.

Un test d'humanité

ARC-AGI-1 et ARC-AGI-2, conçus par le chercheur François Chollet, visaient à mesurer la capacité des modèles d'IA à abstraire et à généraliser à partir de quelques exemples. Alors que les performances des IA s'amélioraient progressivement sur ces tests, ARC-AGI-3 introduit un changement majeur en confrontant les modèles à des environnements interactifs exigeant une adaptation en temps réel.

Le défi de l'efficacité d'action

ARC-AGI-3 se présente comme une série de mini-jeux abstraits où les agents doivent observer, choisir des actions et anticiper les conséquences de leurs décisions. Ce nouveau test, conçu pour évaluer l'intelligence générale des systèmes, met en lumière l'écart qui subsiste entre les capacités d'apprentissage des IA et celles des humains.

Ce qu'il faut retenir

Gemini 3.1 Pro atteint 0,37 % de réussite, GPT-5.4 0,26 %, Claude Opus 4.6 0,25 % et Grok-4.20 0 %.

Le benchmark ARC-AGI-3

Porté par François Chollet, ARC-AGI-3 propose des scénarios d'IA agentique où les modèles doivent planifier leurs actions pour résoudre des tâches de manière autonome. Ce test exige que les IA apprennent aussi vite et efficacement que les humains, une capacité que les modèles actuels peinent à atteindre.

Et maintenant ?

Face à ces résultats, les chercheurs et développeurs d'IA sont appelés à repenser leurs approches pour atteindre un niveau d'intelligence comparable à celui des humains. Les prochaines avancées dans ce domaine restent à surveiller de près pour mesurer les progrès réalisés.