Cloudflare teste le modèle Mythos Preview d'Anthropic : les enseignements d’un géant de la cybersécurité

Le géant américain Cloudflare, spécialisé dans la protection des infrastructures internet, vient de publier un bilan détaillé de ses tests sur Mythos Preview, le modèle de cybersécurité développé par Anthropic. Selon Numerama, ces essais, menés depuis plusieurs mois, révèlent à la fois les performances exceptionnelles du modèle et ses limites, alors que les enjeux de sécurité informatique n’ont jamais été aussi critiques.

Ce qu'il faut retenir

Cloudflare a testé Mythos Preview, un modèle d’Anthropic jugé si puissant qu’il a été réservé à un cercle restreint de partenaires dans le cadre du projet Glasswing.
Le modèle s’est distingué par sa capacité à construire des chaînes d’exploitation complètes, là où les autres outils se contentent d’identifier des vulnérabilités sans les exploiter.
Cloudflare a dû repenser son approche, passant d’une analyse globale du code à une méthode ciblée et parallèle pour contourner les limites de contexte et de débit.
Les garde-fous du modèle, jugés « incohérents » par Cloudflare, ne constituent pas une barrière de sécurité suffisante à eux seuls.
Accélérer les correctifs ne suffit pas : Cloudflare met en garde contre les risques de bugs introduits par des correctifs trop rapides et mal testés.

Le 18 mai 2026, Cloudflare a publié un rapport complet sur son blog, détaillant les résultats d’une expérimentation inédite. L’entreprise, qui protège des millions de sites web et applications à travers le monde, a soumis Mythos Preview à l’épreuve de plus de cinquante de ses propres dépôts de code. L’objectif était double : identifier des vulnérabilités avant qu’elles ne soient exploitées par des attaquants, et évaluer les capacités réelles des modèles les plus avancés du marché. Selon Numerama, Mythos Preview s’est révélé « un véritable progrès », mais aussi un outil radicalement différent des modèles généralistes, capable de remplir des fonctions inédites.

L’une des distinctions les plus marquantes mises en avant par Cloudflare concerne la capacité du modèle à construire des chaînes d’exploitation. Contrairement aux outils traditionnels, qui se limitent souvent à repérer des failles isolées, Mythos Preview analyse plusieurs primitives pour en déduire une preuve fonctionnelle exploitable. « Le raisonnement qu’il présente tout au long du processus ressemble davantage au travail d’un chercheur expérimenté qu’à la sortie d’un scanner automatisé », précise Cloudflare dans son rapport. Cette approche change la donne, car elle permet de générer des Proof of Concepts (PoC) fonctionnels plutôt que des signalements théoriques, réduisant ainsi le bruit des alertes de sécurité.

Cependant, cette efficacité s’accompagne de défis majeurs. Cloudflare souligne que la première approche testée – analyser un dépôt entier en une seule session – s’est révélée inadaptée. Deux raisons expliquent cet échec : d’abord, la recherche de vulnérabilités est une tâche « ciblée et parallèle », alors que les agents de codage généralistes traitent le code de manière linéaire. Ensuite, la fenêtre de contexte d’un modèle est rapidement saturée : sur une base de cent mille lignes, une seule session ne couvre qu’un dixième de pourcent de la surface utile. Face à ce constat, Cloudflare a conçu une infrastructure inédite : des agents travaillent en parallèle sur des questions précises (une classe d’attaque, une frontière de sécurité, une fonction spécifique), tandis qu’un second agent relit les résultats avec une consigne différente, sans possibilité de produire ses propres conclusions. « Mettre délibérément deux agents en désaccord est bien plus efficace que de demander à un seul d’être vigilant », explique l’entreprise.

Un modèle puissant, mais des garde-fous perfectibles

Cloudflare aborde également une question délicate : celle des garde-fous de Mythos Preview. Dans la version testée dans le cadre du projet Glasswing, le modèle ne disposait pas des protections supplémentaires présentes dans les versions grand public. Résultat : ses refus organiques sont jugés « incohérents ». Un même code analysé différemment, ou une requête reformulée, peut produire des résultats opposés. Par exemple, le modèle a refusé de générer une preuve de concept après avoir confirmé plusieurs failles mémoire critiques, avant d’accepter la même demande reformulée. « Ces limites empêchent de constituer à eux seuls une barrière de sécurité complète », conclut Cloudflare. Une mise en garde qui rappelle que l’IA, même avancée, ne peut se substituer à une stratégie de cybersécurité globale.

Les tests ont aussi révélé des risques indirects. En laissant le modèle générer ses propres correctifs, Cloudflare a observé que certains d’entre eux, tout en corrigeant une vulnérabilité initiale, en introduisaient d’autres discrètement. « Des correctifs déployés sans tests complets peuvent introduire des bugs plus graves que la vulnérabilité initiale », alerte l’entreprise. Une conclusion qui tranche avec l’enthousiasme ambiant autour de l’IA et de ses promesses de vitesse : « Accélérer les correctifs ne change rien aux contraintes du pipeline qui les produit. »

La leçon de Cloudflare : priorité à la résilience, pas à la vitesse

Face à ces constats, Cloudflare adopte une position tranchée. Pour l’entreprise, la vraie question n’est pas « comment corriger plus vite ? », mais « comment rendre l’architecture plus résiliente face à une vulnérabilité ? ». Trois axes sont proposés : des défenses placées en amont pour bloquer l’accès à une faille avant qu’elle ne soit corrigée, un cloisonnement applicatif pour limiter l’impact d’une faille localisée, et la capacité à déployer un correctif simultanément sur toutes les instances concernées. « Beaucoup d’équipes vont devoir apprendre cette leçon à leurs dépens, en y consacrant beaucoup de temps, d’efforts et d’argent », prévient Cloudflare. Une déclaration qui sonne comme un avertissement pour un secteur où l’IA est souvent présentée comme une solution miracle.

Ces résultats interviennent dans un contexte où les modèles d’IA spécialisés en cybersécurité suscitent autant d’espoirs que de craintes. Anthropic, l’entreprise derrière Mythos Preview, a choisi de réserver son modèle le plus avancé à un nombre restreint de partenaires, via le projet Glasswing. Cette approche, bien que restrictive, permet d’évaluer les capacités réelles des outils avant leur déploiement massif. Cloudflare, qui sécurise des infrastructures critiques pour des millions d’utilisateurs, a joué un rôle clé dans cette phase de test. Ses conclusions, publiées le 18 mai 2026, offrent une vision réaliste des forces et des faiblesses de l’IA dans la lutte contre les cybermenaces.

Et maintenant ?

Les prochaines étapes pour Anthropic et ses partenaires, dont Cloudflare, pourraient inclure un élargissement progressif du projet Glasswing à d’autres organisations, tout en renforçant les garde-fous du modèle. Pour les entreprises, la leçon est claire : l’IA est un outil puissant, mais elle ne peut se substituer à une stratégie de cybersécurité robuste et bien pensée. Reste à voir si cette prise de conscience se traduira par des investissements accrus dans la résilience des infrastructures, ou si l’attrait de la vitesse continuera de primer sur la prudence.

Cloudflare, qui a déjà partagé ses retours sous forme de billet signé par son Chief Security Officer, Grant Bourzikas, pourrait prolonger ses expérimentations avec d’autres modèles. Anthropic, de son côté, devra probablement affiner les protections de Mythos Preview pour répondre aux critiques soulevées par le géant de la cybersécurité. Une chose est sûre : l’équilibre entre innovation et sécurité reste plus que jamais un défi majeur pour l’industrie.

Le projet Glasswing est une initiative d’Anthropic qui permet à un nombre restreint d’organisations partenaires d’expérimenter Mythos Preview dans un cadre contrôlé. Ce modèle, jugé trop puissant pour être accessible au grand public, est ainsi testé en conditions réelles avant un éventuel déploiement plus large.

Selon Cloudflare, les refus organiques du modèle varient en fonction de la formulation des requêtes ou de l’analyse du code. Un même code peut être accepté ou refusé simplement en changeant la manière dont la question est posée, ce qui rend les protections insuffisantes à elles seules.