Une attaque par injection de prompt contourne les protections d’Apple Intelligence

Two authors accuse Apple of illegally training AI models on pirated books

Des chercheurs ont récemment réussi à contourner les restrictions d’Apple, exploitant une vulnérabilité dans le modèle d’intelligence artificielle sur appareil. Grâce à des techniques astucieuses, ils ont pu inciter le système à exécuter des actions non autorisées. Cet article explore les détails de cette découverte et comment Apple a renforcé ses mesures de sécurité en réponse à cette menace.

Amélioration des protections d’Apple

Deux publications sur le blog RSAC révèlent comment les chercheurs ont combiné plusieurs stratégies d’attaque pour manipuler le modèle d’Apple. En utilisant des injections de prompts spécifiques, ils ont contourné les systèmes de filtrage des entrées et des sorties, réussissant à faire exécuter des instructions non sécurisées sans comprendre entièrement le fonctionnement interne du modèle.

Apple n’ayant pas divulgué les détails techniques précis, les chercheurs ont dû déduire le fonctionnement potentiel des filtres. Ils soupçonnent qu’une fois une requête soumise par un utilisateur, un filtre d’entrée est chargé de vérifier si le contenu est sûr. Si le filtre repère quelque chose de suspect, l’API échoue, sinon la requête est transmise au modèle pour traitement.

Une attaque par injection de prompt contourne les protections dApple
Image : Détails techniques sur l’attaque d’injection de prompt contre l’intelligence d’Apple

Mécanismes de l’attaque

Les chercheurs ont utilisé une approche innovante en combinant deux techniques d’exploitation. La première consistait à inverser les chaînes de caractères nuisibles et à les appliquer à l’aide d’un caractère Unicode destiné à autoriser son affichage correct tout en restant masqué lors de l’analyse.

Ensuite, ils ont intégré ces chaînes dans une méthode d’attaque appelée Neural Exec. Ce processus a permis de contourner les directives de sécurité du modèle tout en forçant l’exécution d’instructions potentiellement malveillantes. Ce mélange habile a permis à l’attaque de fonctionner efficacement, déclenchant des activités non autorisées du système.

1775768437 54 Une attaque par injection de prompt contourne les protections dApple
Image : Utilisation d’une injection de prompt pour détourner l’intelligence d’Apple

Les chercheurs ont mis en place une méthode d’évaluation qui impliquait la création de prompts distincts, représentant des requêtes système, des chaînes nuisibles et des entrées honnêtes. Ces ensembles ont pu démontrer l’efficacité de l’attaque, qui a atteint un taux de réussite de 76% sur un exemplaire de 100 prompts.

Après avoir découvert cette vulnérabilité, les chercheurs ont alerté Apple, qui a pris rapidement des mesures pour renforcer ses systèmes. Ces améliorations ont été mises en place dans les mises à jour iOS 26.4 et macOS 26.4.