Apple présente son système d’entraînement Apple Intelligence utilisant les données des utilisateurs

Most iPhone owners see little to no value in Apple Intelligence so far

Le mois dernier, Apple a pris la décision de retarder le déploiement de ses nouvelles fonctionnalités Siri, promettant une expérience plus personnelle et performante. Dans cette quête d’amélioration, l’entreprise explore des méthodes novatrices pour la formation de ses modèles d’intelligence artificielle, comme le souligne un rapport de Bloomberg.

Une approche basée sur des données synthétiques

Selon un article publié sur le site de recherche en apprentissage automatique d’Apple, la société s’appuie traditionnellement sur des données synthétiques pour entraîner ses modèles d’IA. Toutefois, cette méthode présente des limites. En effet, il est difficile pour ces données de saisir les tendances dans des domaines comme le résumé ou les outils de rédaction, surtout lorsqu’il s’agit de phrases longues ou d’e-mails complets.

Pour surmonter cet obstacle, Apple annonce l’intégration d’une nouvelle technologie. Celle-ci compare les données synthétiques à un petit exemplaire d’e-mails récents des utilisateurs, tout en respectant leur vie privée :

“Pour améliorer nos modèles, il est nécessaire de générer un ensemble d’e-mails représentatifs couvrant les sujets les plus courants dans les messages. Nous commençons par créer un grand nombre de messages synthétiques sur divers thèmes. Par exemple, un message pourrait être : ‘Souhaites-tu jouer au tennis demain à 11h30 ?’

Ceci est réalisé sans aucune connaissance des e-mails individuels des utilisateurs. Nous dérivons ensuite une représentation, appelée embedding, de chaque message synthétique, capturant des dimensions clés telles que la langue, le sujet et la longueur.”

Un processus d’apprentissage respectueux de la vie privée

Les appareils qui participent à cette initiative choisissent un exemplaire d’e-mails récents et calculent leurs embeddings. Chaque appareil détermine ensuite lequel des embeddings synthétiques est le plus proche de ces échantillons. Grâce à la vie privée différentielle, Apple peut ainsi apprendre quels sont les embeddings synthétiques les plus fréquemment sélectionnés, sans connaître les choix effectués par chaque appareil.

Ces embeddings populaires serviront à générer des données d’entraînement ou de test, ou encore à affiner davantage le jeu de données. Par exemple, si le message sur le tennis est parmi les plus sélectionnés, un message similaire remplaçant “tennis” par “football” pourrait être créé et ajouté au jeu de données pour la prochaine étape de curation.

Apple affirme que ces méthodes lui permettent de “comprendre les tendances globales, sans apprendre d’informations sur des individus spécifiques.” Selon Bloomberg, ce nouveau système sera intégré dans une future version bêta d’iOS 18.5 et de macOS 15.5.

Pour des détails supplémentaires, le blog d’Apple propose une lecture approfondie sur ces innovations.