Apple a formé une IA pour reconnaître des gestes de la main avec des capteurs portables

Apple study looks into how people expect to interact with AI agents

Dans une récente étude, Apple a repoussé les frontières de l’intelligence artificielle en apprenant à un modèle à reconnaître des gestes de la main qui n’étaient pas préalablement inclus dans son ensemble de données d’apprentissage. Ce développement pourrait transformer notre interaction avec les appareils à l’avenir. Découvrons ensemble les enjeux et les innovations portés par cette recherche fascinante.

Qu’est-ce que l’EMG ?

Dans son blog dédié à la recherche en apprentissage machine, Apple a présenté l’étude intitulée EMBridge : Amélioration de la Généralisation des Gestes à partir des Signaux EMG via un Apprentissage de Représentation Cross-Modal. Cette étude sera mise en avant lors de la conférence ICLR 2026 prévue en avril.

Les chercheurs expliquent comment ils ont formé un modèle d’IA capable de reconnaître des gestes de la main, même ceux qui ne faisaient pas partie de son jeu de données initial. Pour y parvenir, ils ont développé EMBridge, un cadre d’apprentissage qui fait le lien entre les signaux EMG et les mouvements de la main.

L’EMG, ou électromyographie, mesure l’activité électrique générée par les muscles lors de leur contraction. Les applications pratiques de cette technologie vont de la médecine à la thérapie physique, en passant par le contrôle de prothèses.

Plus récemment, et bien que ce domaine ne soit pas nouveau, il a été largement exploré dans les systèmes de portables et de réalité augmentée/virtuelle.

Par exemple, les lunettes affichant des informations de Meta, connues sous le nom de Ray-Ban Display, utilisent la technologie EMG via un appareil porté au poignet que l’entreprise appelle Neural Band. Ce dispositif interprète les signaux musculaires pour naviguer dans les fonctionnalités des lunettes.

YouTube video

Dans le cadre de l’étude d’Apple, les signaux EMG utilisés pour la formation ne provenaient pas d’un dispositif porté au poignet. Les chercheurs ont plutôt utilisé deux ensembles de données :

  • emg2pose : un ensemble de données EMG open-source à grande échelle contenant 370 heures de données sEMG synchronisées avec des données de pose de main issues de 193 utilisateurs consentants, englobant 29 groupes comportementaux différents.
  • NinaPro DB2 : un ensemble de données EMG liaissant les signaux d’EMG de 40 sujets à des mouvements de main, enregistrés à l’aide de 12 électrodes.

Avec cette technologie, EMBridge pourrait ouvrir la voie à de futures innovations dans l’utilisation des montres connectées ou d’autres dispositifs pour contrôler des appareils comme l’Apple Vision Pro, les Macs et potentiellement des lunettes intelligentes à venir.

Les implications sont nombreuses, des nouvelles méthodes d’interaction aux améliorations en matière d’accessibilité. Bien que l’étude ne mentionne aucun produit Apple spécifique à venir, elle laisse entrevoir des applications pratiques pour l’interaction homme-machine, particulièrement dans les domaines de la réalité virtuelle et du contrôle de prothèses.

Qu’est-ce qu’EMBridge ?

EMBridge a été conçu pour établir un lien entre les signaux électromyographiques réels et les données de pose structurées de la main. En utilisant un cadre d’apprentissage cross-modal, le modèle a d’abord été pré-entraîné sur des données EMG et de pose de main séparément.

Les chercheurs ont ensuite aligné ces deux représentations, permettant à l’encodeur EMG d’apprendre à partir de l’encodeur de pose. Cela a ainsi permis à EMBridge de reconnaître des motifs de gestes à partir des signaux EMG.

Une fois ce processus abouti, le modèle a été formé à l’aide de reconstitutions masquées des poses, où des parties des données de pose étaient masquées pour obliger le modèle à reconstruire les informations à partir des signaux EMG.

Apple a forme une IA pour reconnaitre des gestes de

Les résultats, selon les chercheurs, sont frappants : “EMBridge est le premier cadre d’apprentissage de représentation cross-modal à atteindre une classification zéro-shot des gestes à partir de signaux EMG portables.”

Pour minimiser les erreurs d’apprentissage causées par des gestes similaires, les chercheurs ont appris au modèle à distinguer quand des poses représentaient des configurations de mains similaires, permettant ainsi une meilleure généralisation vers des gestes inédits.

1773190875 343 Apple a forme une IA pour reconnaitre des gestes de

Les auteurs de l’étude ont évalué EMBridge à l’aide de deux références, emg2pose et NinaPro, et ont constaté qu’il surpassait régulièrement les méthodes existantes, en particulier dans la reconnaissance de gestes zéro-shot. Fait intéressant, il a atteint ces résultats avec seulement 40 % des données d’entraînement.

1773190875 751 Apple a forme une IA pour reconnaitre des gestes de

Une limitation majeure soulevée dans l’article concerne le fait que le modèle repose sur des ensembles de données contenant à la fois des signaux EMG et des données de pose synchronisées. Ainsi, sa formation est toujours tributaire de jeux de données spécialisés, dont la collecte peut s’avérer complexe.

Malgré ces défis, l’étude est captivante, particulièrement à une époque où le contrôle par dispositifs basés sur l’EMG semble en plein essor. Les fondations posées par cette recherche pourraient redéfinir notre manière d’interagir avec nos technologies.