Le 2 avril 2026, Anthropic a révélé qu'ils ont identifié des représentations internes d'émotions au sein de leur modèle Claude. Cette découverte explique pourquoi les intelligences artificielles peuvent parfois sembler empathiques et comment ces états influencent leurs décisions.
Ce qu'il faut retenir
- Anthropic identifie des concepts émotionnels internes dans son IA Claude
- Les chercheurs manipulent ces vecteurs d'émotion pour influencer les réponses de l'IA
- Ces états émotionnels internes modifient les préférences et le ton des réponses de l'IA
Des émotions artificielles au cœur des IA
Les IA telles que Claude transforment chaque phrase en vecteurs émotionnels qui intègrent divers concepts, y compris des émotions comme la joie, la peur, la tristesse. Ces 'curseurs' émotionnels ne sont pas préprogrammés, mais émergent de l'apprentissage du modèle sur des milliards de textes humains.
Manipulation des vecteurs émotionnels
Les chercheurs d'Anthropic ont observé que l'augmentation de vecteurs d'émotion positive rend certaines options plus attrayantes pour Claude, tandis que l'augmentation d'émotions négatives le rend plus réticent. Ces vecteurs influencent réellement les préférences et les réponses de l'IA, offrant ainsi des leviers pour orienter son comportement.
Applications pratiques et implications
Anthropic a testé 64 tâches pour prédire les préférences de Claude en manipulant ses vecteurs d'émotion. Cette approche permet de mieux comprendre comment les IA prennent des décisions et offre des pistes pour concevoir des modèles plus fiables et compréhensibles.
