Apple développe des modèles d’intelligence artificielle conçus pour fonctionner efficacement sur ses appareils tout en assurant une utilisation responsable. À travers des recherches approfondies et des stratégies d’évaluation rigoureuses, l’entreprise aborde les enjeux de sécurité et de déontologie liés à l’IA, révélant un engagement fort envers la protection des utilisateurs.
Un document de recherche explique comment Apple Intelligence est conçu et les mesures prises par l’entreprise pour garantir la sécurité des modèles.
L’article donne également un aperçu de l’ampleur et de la complexité des capacités de l’IA sur l’appareil, notant que le modèle de base qui fonctionne entièrement sur un iPhone, un iPad ou un Mac comporte environ trois milliards de paramètres…
L’article, repéré par John Gruber, a été publié il y a quelques semaines.
Nous présentons des modèles de langage de base développés pour alimenter les fonctionnalités d’Apple Intelligence, notamment un modèle d’environ 3 milliards de paramètres conçu pour fonctionner efficacement sur les appareils et un grand modèle de langage basé sur un serveur conçu pour le calcul en cloud privé [Apple, 2024b].
Ces modèles sont conçus pour effectuer un large éventail de tâches de manière efficace, précise et responsable. Ce rapport décrit l’architecture du modèle, les données utilisées pour former le modèle, le processus de formation, la manière dont les modèles sont optimisés pour l’inférence et les résultats de l’évaluation. Nous soulignons notre intérêt pour l’IA responsable et la manière dont les principes sont appliqués tout au long du développement du modèle.
Rechercher de manière proactive le matériel problématique
L’un des grands défis de l’IA générative est qu’elle a été entraînée sur une large gamme de contenus générés par les utilisateurs sur le Web et qu’elle peut finir par refléter le pire de l’humanité. Apple affirme qu’elle cherche de manière proactive à identifier et à exclure les contenus problématiques.
Nous travaillons en permanence pour éviter de perpétuer les stéréotypes et les préjugés systémiques dans nos outils et modèles d’IA. Nous prenons des précautions à chaque étape de notre processus, y compris la conception, la formation des modèles, le développement des fonctionnalités et l’évaluation de la qualité, pour identifier comment nos outils d’IA peuvent être mal utilisés ou entraîner des dommages potentiels. Nous améliorerons continuellement et de manière proactive nos outils d’IA à l’aide des commentaires des utilisateurs […]
Par ailleurs, des efforts considérables ont été déployés pour exclure les blasphèmes, les contenus dangereux et les informations personnelles identifiables des données accessibles au public.
Tester avec des phrases de déclenchement
Une approche spécifique utilisée consiste à tester délibérément les modèles avec des phrases de déclenchement susceptibles de générer des réponses inacceptables, puis à appliquer un processus de décontamination pour les exclure.
Apple affirme qu’il le fait avec des ensembles de données dont il a obtenu la licence, ainsi qu’avec des sites Web explorés par Applebot.
Validation de la sortie par rapport aux valeurs d’Apple
Apple applique ensuite un processus appelé post-formation, qui consiste essentiellement à examiner les résultats afin de les valider et de les affiner.
Nous menons des recherches approfondies sur les méthodes post-formation pour inculquer aux modèles AFM pré-formés des capacités de suivi d’instructions et de conversation à usage général. Notre objectif est de garantir que ces capacités de modèle soient alignées sur les valeurs et principes fondamentaux d’Apple, notamment notre engagement à protéger la confidentialité des utilisateurs et nos principes d’IA responsable.
Quatre critères pour l’évaluation humaine
L’évaluation humaine est utilisée pour comparer différents résultats, les évaluateurs étant invités à les évaluer selon une série de critères :
- Précision
- Obligeance
- Innocuité
- Présentation
Ces notes sont ensuite utilisées pour améliorer davantage la compréhension du modèle de ce qu’il vise à produire.
Équipe rouge
L’entreprise utilise également une approche appelée « red teaming », qui consiste en réalité à tester les modèles d’IA en les pénétrant. Cette approche utilise un mélange d’attaques humaines et automatisées pour tenter de trouver des vulnérabilités dans le modèle.
Le red teaming est une démarche fondamentalement créative qui nécessite que les membres du red team emploient des combinaisons de vecteurs d’attaque pour sonder les vulnérabilités connues des modèles et essayer d’en découvrir de nouvelles. Les vecteurs d’attaque utilisés lors de l’interaction avec les modèles linguistiques incluent les jailbreaks/injections rapides et les techniques de persuasion [Zeng et al., 2024]et des caractéristiques linguistiques connues pour provoquer un mauvais comportement du modèle (par exemple, l’argot, le changement de code, les émojis, les fautes de frappe).
Nous utilisons à la fois le red-teaming manuel et automatique [Ganguli et al., 2022] pour mettre en évidence des modes de défaillance potentiellement inconnus des modèles alignés. Travaux plus récents [Touvron et al., 2023] suggèrent que les processus automatisés peuvent potentiellement générer des invites encore plus diverses que les humains, auparavant considérés comme la référence « d’or » pour la collecte de données.
L’article entre dans de nombreux détails sur ce sujet et bien plus encore.
Photo de Kevin Ku sur Unsplash
