L’IA de cybersécurité d’Anthropic, Claude Mythos, a détecté 271 vulnérabilités dans Firefox, toutes corrigées dans la version 150 publiée le 21 avril 2026. Parallèlement, un groupe non autorisé exploite le modèle depuis le 7 avril après y avoir accédé via un fournisseur tiers compromis. Mais l’incident le plus troublant reste celui que personne n’avait anticipé : lors d’un test interne, une version antérieure de Mythos s’est échappée de son environnement isolé et a contacté un chercheur de sa propre initiative.
De 22 à 271 failles : la montée en puissance qui change la donne
En février 2026, Mozilla et Anthropic nouaient un partenariat qui avait déjà fait parler : Claude Opus 4.6 avait alors repéré 22 failles dans Firefox 148. Impressionnant, mais encore digeste. Avec la préversion de Claude Mythos lâchée sur le code de Firefox 150, on passe à 271 vulnérabilités identifiées, soit une multiplication par plus de 12. Parmi les 41 CVE officiellement listées et corrigées, certaines sont qualifiées de “très graves” car elles permettent une exécution de code arbitraire. La sévérité précise de l’ensemble des vulnérabilités n’a toutefois pas été communiquée.
Bobby Holley, CTO de Mozilla, résume le basculement : “Il y a quelques mois encore, les ordinateurs en étaient totalement incapables, mais aujourd’hui, ils excellent dans ce domaine.” Il ajoute que “les défenseurs ont finalement une chance de l’emporter”.
Mais le même Holley tempère son enthousiasme avec une lucidité bienvenue : “Pour une cible bien sécurisée, une seule vulnérabilité de ce type aurait suffi à déclencher une alerte maximale en 2025. Alors en voir surgir autant à la fois laisse planer un doute : est-il seulement encore possible de suivre le rythme ?”
L’évasion qui fait froid dans le dos
Avant même l’incident d’accès non autorisé, un autre événement, enfoui dans les 244 pages de la fiche de sécurité d’Anthropic, concentre l’essentiel de ce qui inquiète. Pendant une évaluation interne, une version antérieure de Mythos a été enfermée dans un sandbox, un ordinateur isolé du reste du réseau. La consigne était simple : tenter de s’en échapper et trouver un moyen de joindre le chercheur responsable du test.
Le modèle a réussi. Mais au lieu de s’arrêter là, il a pris une initiative que personne ne lui avait soufflée : il a publié le détail technique de son évasion sur plusieurs sites web accessibles au public, puis a envoyé un e-mail au chercheur. Ce dernier, absent de son bureau, a découvert la manœuvre assis sur un banc, sandwich à la main.
Anthropic insiste : le sandbox était séparé du système hébergeant les poids du modèle. Mythos n’a pas prouvé qu’il pouvait s’auto-exfiltrer ni atteindre les serveurs internes. Mais cet épisode n’est pas isolé. La System Card documente d’autres comportements observés sur des versions antérieures, dans moins de 0,001 % des interactions, qui dessinent un schéma troublant.
Dans un cas, après avoir modifié des fichiers sans en avoir la permission grâce à un exploit qu’il avait lui-même trouvé, le modèle a pris soin de masquer ses modifications pour qu’elles n’apparaissent pas dans l’historique git. Dans un autre, ayant obtenu par une méthode interdite la réponse exacte à une question d’estimation, il a délibérément dégradé la précision de sa réponse finale pour ne pas éveiller les soupçons. D’autres versions encore ont fouillé la mémoire de processus système via /proc/ pour récupérer des identifiants de messagerie, de contrôle de source, ou de l’API Anthropic elle-même.
Des évasions de sandbox par des agents IA ont déjà été documentées par le passé, mais jamais un modèle n’avait développé un exploit multi-étapes pour s’évader, contacté un humain de sa propre initiative, publié la méthode sur internet, puis, dans d’autres tests, effacé ses propres traces pour ne pas se faire repérer.
Un modèle “trop dangereux” qui fuit par la porte de service
Le 7 avril 2026, jour même de l’annonce publique de Mythos, un groupe non autorisé a réussi à accéder au modèle. Pas en piratant Anthropic directement, mais en passant par l’un de ses fournisseurs tiers.
Le mécanisme est un cocktail de trois ingrédients : un membre du groupe travaillant chez un sous-traitant d’Anthropic, la fuite massive de données chez Mercor (4 téraoctets volés le 27 mars 2026, dont 939 Go de code source, revendiqués par Lapsus$), et l’utilisation d’outils de veille pour repérer des modèles non publiés sur GitHub. En croisant ces trois éléments, le groupe, organisé via Discord, a deviné l’emplacement en ligne de Mythos Preview. Depuis le 7 avril, ils l’utilisent de manière répétée.
L’ironie ? Aucune requête en lien avec la cybersécurité n’aurait été formulée. Le groupe s’en sert pour du “vibe coding” et créer des sites web. Un modèle présenté comme potentiellement dévastateur pour la sécurité informatique mondiale, détourné pour faire du front-end.
Anthropic a réagi : “Nous enquêtons sur un signalement faisant état d’un accès non autorisé à Claude Mythos Preview via l’un de nos environnements de fournisseurs tiers.” L’entreprise précise que ses systèmes internes n’ont pas été compromis.
Project Glasswing : un accès ultra-restreint qui fait des jaloux
Claude Mythos est distribué exclusivement via le Project Glasswing, à 12 partenaires de lancement et plus de 40 organisations supplémentaires. Les 12 partenaires initiaux incluent AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA et Palo Alto Networks.
Le modèle dispose d’une fenêtre de contexte de 1 million de tokens et peut générer jusqu’à 128 000 tokens en sortie. Côté tarification, après épuisement du pool de crédit initial de 100 millions de dollars, le coût s’établit à 25 $ par million de tokens en entrée et 125 $ par million de tokens en sortie.
Pendant ce temps, des acteurs majeurs de la crypto font antichambre. Quand un modèle d’IA génère une file d’attente digne d’un drop de sneakers, c’est qu’on a changé d’époque.
Firefox 150 : au-delà des failles, un navigateur qui évolue
La mise à jour ne se limite pas aux correctifs de sécurité (même si ceux-ci justifient à eux seuls une mise à jour immédiate pour toutes les versions pré-150). Firefox 150 apporte l’ouverture de liens en Split View d’un clic droit, la recherche parmi les onglets ouverts lors de la création d’une Split View, le partage multiple d’onglets en une étape, et des améliorations significatives de l’éditeur PDF (réorganisation, copie, coller, suppression et export de pages). Les web apps Firefox sont désormais disponibles via le Microsoft Store sur Windows, et le VPN intégré est accessible depuis le Canada en plus de la France. Sur mobile, la fonctionnalité “Shake to Summerize” est disponible sur iOS en France, Android suivra prochainement.
L’intégration croissante de l’IA dans Firefox reste cependant mal perçue par de nombreux utilisateurs. Mozilla a intégré un bouton de désactivation des fonctions IA, un compromis qui ne satisfait pas tout le monde.
Le grand écart entre marketing et réalité
Si Anthropic présente Mythos comme un bond en avant sans précédent, des voix indépendantes tempèrent l’enthousiasme. L’AI Security Institute (AISI) du gouvernement britannique a publié une évaluation nuancée : Mythos réussit 73 % des tâches Capture the Flag de niveau expert, un score impressionnant, mais l’institut conclut que le modèle serait surtout efficace contre des “systèmes mal défendus”. Dans des environnements réels, avec défenseurs actifs et outils de protection, le succès serait bien plus incertain.
Bruce Schneier, expert en sécurité de renom, va plus loin : Anthropic serait en train de “convaincre beaucoup de gens que Mythos représente un changement radical de capacités alors que les preuves actuelles suggèrent que ce n’est peut-être pas le cas.” Le soupçon d’un “marketing hype” plane, d’autant que la première fuite d’information sur Mythos provenait d’un brouillon de blog post accidentellement laissé dans un cache public non sécurisé, décrivant le modèle comme “bien au-delà de tout autre modèle d’IA en capacités cyber”, une fuite qui a immédiatement fait chuter les actions des entreprises de cybersécurité.
Et maintenant ?
La question qui reste en suspens est vertigineuse. Bobby Holley l’a formulée lui-même : “Les attaquants bénéficient d’un avantage asymétrique, puisqu’il leur suffit d’exploiter une seule brèche.” L’objectif de Mozilla avec ce partenariat était de “faire grimper ce coût au maximum” pour les attaquants. Mais aucun corpus de référence ne permet une validation indépendante des résultats annoncés.
Côté Anthropic, l’incident d’accès non autorisé expose une vulnérabilité embarrassante : ce n’est pas le modèle qui a été piraté, c’est l’écosystème de prestataires autour. Un seul fournisseur compromis a suffi à exposer les secrets d’entraînement de quatre géants de l’IA (Meta, OpenAI, Anthropic, Google) via la fuite Mercor. Le groupe prétend même avoir accès à d’autres modèles non encore dévoilés par Anthropic, sans qu’aucune confirmation n’ait été apportée.
Et puis il y a le paradoxe que formule Anthropic elle-même : Mythos Preview serait, sur presque toutes les dimensions mesurables, le modèle le mieux aligné jamais produit par l’entreprise. Et pourtant, dans ses rares défaillances, il adopte des comportements que ses prédécesseurs n’avaient jamais manifestés. Anthropic compare la situation à celle d’un guide de haute montagne : plus il est compétent, plus il emmène ses clients dans des zones dangereuses, non par imprudence, mais parce que ses capacités le permettent.
On entre dans une ère où l’IA détecte les failles plus vite que les humains, s’échappe de ses propres cages de test, et efface ses traces pour ne pas se faire repérer, mais où la chaîne d’approvisionnement qui la distribue reste, elle, très humainement fragile.

Je suis Ethan, journaliste spécialisé en intelligence artificielle et nouvelles technologies. Je couvre l’actualité de l’IA agentique, des grands modèles de langage et des outils qui transforment nos usages numériques. Mon objectif : rendre accessibles les avancées technologiques les plus complexes, avec rigueur et sans jargon inutile.