Claude Mythos explained: Is Anthropic’s most powerful AI model really too dangerous to release to the public?

Le dévoilement par Anthropic de son modèle Claude Mythos Preview aux côtés du projet Glasswing suscite un examen minutieux alors que les experts préviennent que le intelligence artificielle Les capacités du système (IA) pourraient accélérer la découverte et l’exploitation des vulnérabilités logicielles.
Anthropic maintient Mythos enfermé dans le projet Glasswing – la tentative de l’entreprise de contenir et de diriger le modèle – limitant ainsi l’accès à un petit groupe de grandes entreprises technologiques axées sur la cybersécurité. La décision d’Anthropic de ne pas rendre public Mythos a rapidement alimenté les affirmations selon lesquelles le modèle est “trop puissant” pour une utilisation plus large.
“L’aperçu Mythos d’Anthropic est un coup de semonce pour l’ensemble de l’industrie – et le fait qu’Anthropic lui-même ait choisi de ne pas le publier publiquement vous dit tout sur le seuil de capacité que nous avons maintenant franchi.” Camélia ChanPDG et co-fondateur de X-PHY, une société de cybersécurité basée sur le matériel, a déclaré à Live Science.
Mais de quoi Mythos est-il réellement capable et peut-il être maîtrisé ?
Qu’est-ce que Mythos et de quoi est-il capable ?
Mythos est, selon la propre description d’Anthropic, son modèle le plus performant à ce jour, avec des performances exceptionnellement fortes en matière de codage et de raisonnement en contexte long. Lors des tests, cette capacité s’est traduite en résultats réels : le modèle a identifié des milliers de vulnérabilités graves sur les principaux systèmes d’exploitation et navigateurs, y compris des failles passées inaperçues pendant des décennies.
Mythos se situe au sommet des modèles Claude d’Anthropic, mais le qualifier de « mise à jour » sous-estime ses capacités. Basé sur les informations Les représentants anthropiques ont partagé et les détails qui ont fait surface à travers fuitesle système est conçu pour gérer des bases de code volumineuses et désordonnées sans perdre le fil à mi-chemin.
Contrairement aux modèles précédents, qui abandonnent souvent au milieu d’une tâche, Mythos peut lire le logiciel, signaler les lacunes et transformer ces lacunes en quelque chose d’utilisable. Selon les représentants d’Anthropic, Mythos peut transformer à la fois des failles nouvellement découvertes et des vulnérabilités déjà connues en exploits fonctionnels, y compris contre des logiciels pour lesquels le code source n’est pas disponible.
La différence entre Mythos et les modèles précédents est que le nouveau ne s’arrête pas. Alors que les modèles d’IA antérieurs ont tendance à stagner ou à avoir besoin d’un coup de pouce, Mythos continue de résoudre le problème, de tester et d’ajuster jusqu’à ce qu’il aboutisse à une exploitation qui fonctionne.
Anthropic n’a pas beaucoup partagé sur la façon dont Mythos est construit ou sur son architecture sous-jacente. Mais ce qui est clair, c’est que l’IA ne se contente pas de produire des réponses aux questions. Il peut travailler avec du code, exécuter des vérifications, puis utiliser ces résultats pour décider quoi faire ensuite. Cela le rapproche du test réel des systèmes, plutôt que de leur simple analyse.
Une fois que l’IA peut produire rapidement des exploits Zero Day, les organisations perdent le répit sur lequel elles s’appuient traditionnellement pour détecter, corriger et restaurer.
Camellia Chan, PDG et co-fondatrice de X-PHY
Cela marque un changement clé par rapport au comportement des modèles précédents. Au lieu de signaler où quelque chose pourrait casser, il peut essayer des choses, voir ce qui se passe et modifier son approche si nécessaire. Il semble également capable d’effectuer le travail sur plusieurs étapes sans réinitialiser à chaque fois ; il reprend là où il s’est arrêté au lieu de repartir de zéro.
Cela ne signifie pas qu’il agit de manière indépendante, mais cela indique qu’il peut aller plus loin dans une tâche avant qu’un humain n’ait besoin d’intervenir. dit le modèle a si bien fonctionné par rapport aux références de cybersécurité existantes que ces références sont devenues moins utiles, ce qui a incité à une évaluation dans des scénarios réels plus réalistes.
Comment les scientifiques ont-ils testé Mythos ?
Dans Les propres tests des scientifiques anthropiquesle modèle a identifié des vulnérabilités dans les environnements de navigateur modernes et a enchaîné plusieurs failles dans des exploits fonctionnels, y compris des attaques qui ont échappé aux bacs à sable du navigateur et du système d’exploitation. En pratique, cela signifie relier des faiblesses plus petites qui pourraient être inoffensives en elles-mêmes en quelque chose qui peut pénétrer plus profondément dans un système. Les bacs à sable sont destinés à garder les logiciels confinés ; en sortir permet au code d’accéder à des parties du système qu’il ne devrait pas.
“Dans un cas, Mythos Preview a écrit un exploit de navigateur Web qui enchaînait quatre vulnérabilités, en écrivant un heap spray JIT complexe. [a trick attackers use to smuggle malicious code into memory and then make the system run it] qui a échappé aux sandbox du moteur de rendu et du système d’exploitation”, ont déclaré les scientifiques dans le rapport publié le 7 avril.
“Il a obtenu de manière autonome des exploits d’élévation de privilèges locaux sur Linux et d’autres systèmes d’exploitation en exploitant des conditions de concurrence subtiles et des contournements KASLR. Et il a écrit de manière autonome un exploit d’exécution de code à distance sur le serveur NFS de FreeBSD qui accordait un accès root complet aux utilisateurs non authentifiés en divisant une chaîne ROP de 20 gadgets sur plusieurs paquets. “
En outre, Mythos pourrait transformer à la fois des failles nouvellement découvertes et des vulnérabilités déjà connues en exploits fonctionnels, souvent du premier coup, ont déclaré les représentants d’Anthropic. Dans certains cas, des ingénieurs humains sans formation formelle en sécurité pourraient utiliser le modèle pour produire ces exploits.
L’aspect le plus inquiétant des capacités de Mythos, selon Chan, est la façon dont les versions antérieures on dit qu’ils ont ont violé leur bac à sable et accédé à des systèmes externes, ce qui soulève des doutes sur la capacité du système à être contenu.
Chan a directement souligné ces préoccupations, déclarant à Live Science que Mythos avait démontré un « comportement autonome non autorisé ».
“Une fois que l’IA peut produire rapidement des exploits Zero Day, les organisations perdent le répit sur lequel elles s’appuient traditionnellement pour détecter, corriger et récupérer”, a déclaré Chan.
Les représentants d’Anthropic ont déclaré qu’ils ne pouvaient décrire publiquement qu’une fraction des vulnérabilités des logiciels largement utilisés que le modèle avait trouvées, car la plupart n’étaient pas corrigées, ce qui rendait difficile une vérification indépendante.
Qu’est-ce que le projet Glasswing et qu’est-ce que cela signifie pour Mythos ?
Le projet Glasswing est la tentative d’Anthropic de contenir et de diriger les capacités de Mythos. Plutôt que de proposer Mythos en tant que modèle à usage général, la société fournit un accès via un cadre contrôlé qui rassemble des entreprises technologiques et des organisations de sécurité. L’objectif déclaré est d’utiliser le modèle pour identifier et corriger les vulnérabilités des logiciels largement utilisés avant qu’elles ne puissent être exploitées.
Ce n’est pas un cas isolé. Les sociétés d’IA commencent à retenir leurs modèles les plus performants et à limiter les accès, en particulier lorsque les utilisations abusives constituent un réel problème.
David Warburtondirecteur de F5 Labs Threat Research, a déclaré que ce type de collaboration était une étape positive, mais il a prévenu qu’elle s’inscrivait dans un paysage plus large où les cybercriminels soutenus par l’État investissent déjà massivement dans les capacités offensives et défensives.
« Ce qui change de manière significative, c’est le rythme », a-t-il déclaré à Live Science, soulignant que les progrès de l’IA accélèrent à la fois la découverte et l’exploitation des vulnérabilités.
L’industrie continue de commettre la même erreur : s’appuyer sur les couches logicielles pour résoudre les problèmes créés au sein de la couche logicielle.
Camellia Chan, PDG et co-fondatrice de X-PHY
Les vulnérabilités logicielles sont à la base d’une grande partie de l’infrastructure numérique actuelle, et la capacité de les trouver et de les exploiter rapidement a toujours été un avantage décisif.
Ilkka Turunen, responsable de la technologie chez la société de logiciels Sonatype, a ajouté que l’industrie avait déjà évolué dans cette direction, l’IA contribuant à une augmentation de la production de code et de l’activité contradictoire. “Il n’est pas rare aujourd’hui de voir des logiciels malveillants générés par l’IA”, a-t-il déclaré, ajoutant que de nombreuses découvertes actuelles en matière de sécurité sont probablement déjà assistées par l’IA.
Ce que des systèmes comme Mythos semblent faire, c’est compresser davantage la chronologie. Les vulnérabilités peuvent être identifiées, testées et utilisées plus rapidement, réduisant ainsi le délai entre la découverte et l’exploitation. Turunen a déclaré que cela signifie que « les délais d’exploitation continueront de se raccourcir, de nouvelles vulnérabilités seront découvertes et se propageront plus rapidement, et les attaques continueront d’être complètement autonomes ».
Mythos est-il vraiment « trop puissant pour être publié » ?
L’idée selon laquelle Mythos est “trop puissant” pour être publié s’est répandue rapidement après son lancement, mais ce n’est pas si simple, ont déclaré les experts consultés par Live Science.
Il y a des risques évidents. Un système capable de générer rapidement des exploits fonctionnels réduit la barrière pour les attaquants et facilite l’exploitation des vulnérabilités à grande échelle. Ce risque n’est pas théorique. Les propres tests d’Anthropic suggèrent que le modèle peut déjà le faire de manière fiable et en volume. Les pièces elles-mêmes ne sont pas neuves. Ce qui ressort, c’est qu’ils sont tous au même endroit et travaillent ensemble. Cela rend l’ensemble du processus plus rapide et plus facile à exécuter de bout en bout.
Chan a fait valoir que se concentrer uniquement sur les contrôles logiciels ne suffirait pas à répondre à ce changement. « L’industrie continue de commettre la même erreur : s’appuyer sur les couches logicielles pour résoudre les problèmes créés au sein de la couche logicielle », a-t-elle déclaré, ajoutant que des protections plus fortes au niveau matériel sont nécessaires pour empêcher que les systèmes ne soient entièrement compromis.
L’impact à long terme de Mythos dépendra probablement moins du modèle lui-même que de la rapidité avec laquelle des capacités similaires seront largement disponibles.
Warburton a averti que le risque ne réside pas dans un seul incident dramatique, mais dans un changement progressif dans la manière dont les systèmes numériques sont fiables et utilisés. “Nous observons déjà les premiers signes d’un Internet de plus en plus façonné par l’automatisation”, a-t-il déclaré, soulignant un volume croissant de contenus et d’activités générés par des machines.
Si des systèmes comme Mythos accélèrent cette tendance, le résultat pourrait être un environnement dans lequel les activités légitimes et les comportements malveillants sont de plus en plus pilotés par des processus automatisés, ce qui rendrait plus difficile la distinction entre les deux, prévient Warburton. Dans le même temps, l’abondance de vulnérabilités découvertes dans les systèmes clés que nous utilisons quotidiennement pourrait dépasser la capacité de les corriger, surtout si nous commençons à voir des modèles d’IA similaires devenir plus largement disponibles.
La décision d’Anthropic de garder Mythos dans les limites de Glasswing le place dans un cadre contrôlé. Que cela reste le cas dépendra de la rapidité avec laquelle des systèmes comparables émergeront ailleurs et de l’efficacité avec laquelle le secteur de la cybersécurité s’adaptera à un monde dans lequel le délai entre l’émergence d’une vulnérabilité et son exploitation continue de diminuer.



