Comment le fabricant de l'iPhone garantit la sécurité d'Apple Intelligence : déclenchement, red teaming et plus encore

Apple développe des modèles d’intelligence artificielle conçus pour fonctionner efficacement sur ses appareils tout en assurant une utilisation responsable. À travers des recherches approfondies et des stratégies d’évaluation rigoureuses, l’entreprise aborde les enjeux de sécurité et de déontologie liés à l’IA, révélant un engagement fort envers la protection des utilisateurs.

Un document de recherche explique comment Apple Intelligence est conçu et les mesures prises par l’entreprise pour garantir la sécurité des modèles.

L’article donne également un aperçu de l’ampleur et de la complexité des capacités de l’IA sur l’appareil, notant que le modèle de base qui fonctionne entièrement sur un iPhone, un iPad ou un Mac comporte environ trois milliards de paramètres…

L’article, repéré par John Gruber, a été publié il y a quelques semaines.

Nous présentons des modèles de langage de base développés pour alimenter les fonctionnalités d’Apple Intelligence, notamment un modèle d’environ 3 milliards de paramètres conçu pour fonctionner efficacement sur les appareils et un grand modèle de langage basé sur un serveur conçu pour le calcul en cloud privé [Apple, 2024b].

Ces modèles sont conçus pour effectuer un large éventail de tâches de manière efficace, précise et responsable. Ce rapport décrit l’architecture du modèle, les données utilisées pour former le modèle, le processus de formation, la manière dont les modèles sont optimisés pour l’inférence et les résultats de l’évaluation. Nous soulignons notre intérêt pour l’IA responsable et la manière dont les principes sont appliqués tout au long du développement du modèle.

Rechercher de manière proactive le matériel problématique

L’un des grands défis de l’IA générative est qu’elle a été entraînée sur une large gamme de contenus générés par les utilisateurs sur le Web et qu’elle peut finir par refléter le pire de l’humanité. Apple affirme qu’elle cherche de manière proactive à identifier et à exclure les contenus problématiques.

Nous travaillons en permanence pour éviter de perpétuer les stéréotypes et les préjugés systémiques dans nos outils et modèles d’IA. Nous prenons des précautions à chaque étape de notre processus, y compris la conception, la formation des modèles, le développement des fonctionnalités et l’évaluation de la qualité, pour identifier comment nos outils d’IA peuvent être mal utilisés ou entraîner des dommages potentiels. Nous améliorerons continuellement et de manière proactive nos outils d’IA à l’aide des commentaires des utilisateurs […]

Par ailleurs, des efforts considérables ont été déployés pour exclure les blasphèmes, les contenus dangereux et les informations personnelles identifiables des données accessibles au public.

Tester avec des phrases de déclenchement

Une approche spécifique utilisée consiste à tester délibérément les modèles avec des phrases de déclenchement susceptibles de générer des réponses inacceptables, puis à appliquer un processus de décontamination pour les exclure.

Apple affirme qu’il le fait avec des ensembles de données dont il a obtenu la licence, ainsi qu’avec des sites Web explorés par Applebot.

Validation de la sortie par rapport aux valeurs d’Apple

Apple applique ensuite un processus appelé post-formation, qui consiste essentiellement à examiner les résultats afin de les valider et de les affiner.

Nous menons des recherches approfondies sur les méthodes post-formation pour inculquer aux modèles AFM pré-formés des capacités de suivi d’instructions et de conversation à usage général. Notre objectif est de garantir que ces capacités de modèle soient alignées sur les valeurs et principes fondamentaux d’Apple, notamment notre engagement à protéger la confidentialité des utilisateurs et nos principes d’IA responsable.

Quatre critères pour l’évaluation humaine

L’évaluation humaine est utilisée pour comparer différents résultats, les évaluateurs étant invités à les évaluer selon une série de critères :

Précision
Obligeance
Innocuité
Présentation

Ces notes sont ensuite utilisées pour améliorer davantage la compréhension du modèle de ce qu’il vise à produire.

Équipe rouge

L’entreprise utilise également une approche appelée « red teaming », qui consiste en réalité à tester les modèles d’IA en les pénétrant. Cette approche utilise un mélange d’attaques humaines et automatisées pour tenter de trouver des vulnérabilités dans le modèle.

Le red teaming est une démarche fondamentalement créative qui nécessite que les membres du red team emploient des combinaisons de vecteurs d’attaque pour sonder les vulnérabilités connues des modèles et essayer d’en découvrir de nouvelles. Les vecteurs d’attaque utilisés lors de l’interaction avec les modèles linguistiques incluent les jailbreaks/injections rapides et les techniques de persuasion [Zeng et al., 2024]et des caractéristiques linguistiques connues pour provoquer un mauvais comportement du modèle (par exemple, l’argot, le changement de code, les émojis, les fautes de frappe).

Nous utilisons à la fois le red-teaming manuel et automatique [Ganguli et al., 2022] pour mettre en évidence des modes de défaillance potentiellement inconnus des modèles alignés. Travaux plus récents [Touvron et al., 2023] suggèrent que les processus automatisés peuvent potentiellement générer des invites encore plus diverses que les humains, auparavant considérés comme la référence « d’or » pour la collecte de données.

L’article entre dans de nombreux détails sur ce sujet et bien plus encore.

Photo de Kevin Ku sur Unsplash

Comment le fabricant de l’iPhone garantit la sécurité d’Apple Intelligence : déclenchement, red teaming et plus encore

Rechercher de manière proactive le matériel problématique

Tester avec des phrases de déclenchement

Validation de la sortie par rapport aux valeurs d’Apple

Quatre critères pour l’évaluation humaine

Équipe rouge

Haut-parleurs multi-room Denon : trois nouveaux modèles à partir de 399 $

Votre routeur sans fil est désormais interdit à la vente aux États-Unis, mais reste fonctionnel

iOS 26.4 : deux mises à jour de personnalisation pour Liquid Glass

Apple Health : plus puissant que vous ne le pensez, voici mes meilleurs conseils

Vulnérabilité DarkSword sur iOS : des versions obsolètes exposées sur GitHub

iPhone 17e : il corrige le principal défaut du modèle 16e avec MagSafe lundi

Haut-parleurs multi-room Denon : trois nouveaux modèles à partir de 399 $

Votre routeur sans fil est désormais interdit à la vente aux États-Unis, mais reste fonctionnel

iOS 26.4 : deux mises à jour de personnalisation pour Liquid Glass

Apple Health : plus puissant que vous ne le pensez, voici mes meilleurs conseils

Vulnérabilité DarkSword sur iOS : des versions obsolètes exposées sur GitHub

Google Photos : comment utiliser la gomme magique pour éliminer trop de personnes sur la photo

Les graphiques AMD offrent 20 % de performances de jeu en plus avec Ray Tracing pour Linux

Meta teste une vidéo selfie façon Face ID pour récupérer des comptes Instagram et Facebook