Étude Apple : les LLM peuvent comprendre vos actions grâce aux données audio et de mouvement

Récemment, des chercheurs d’Apple ont publié une étude fascinante portant sur l’utilisation des modèles de langage de grande taille (LLMs) pour analyser les données audio et de mouvement. Cette recherche vise à mieux comprendre les activités des utilisateurs, permettant une analyse plus précise et contextualisée des comportements. Explorons ensemble les principales découvertes de cette étude captivante.

Une précision informatisée et non intrusive

Intitulé “Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition”, cet article fournit un éclairage sur la manière dont Apple envisage d’intégrer l’analyse des LLMs avec les données des capteurs traditionnels. Ce mariage technologique promet des avancées majeures dans l’analyse des activités, surtout lorsque les données collectées sont limitées.

Les chercheurs soulignent que même sans formation spécifique, les LLMs peuvent déduire avec précision les activités d’un utilisateur à partir d’indices audio et de mouvement simples. Par exemple, en n’ayant qu’un seul exemple à analyser, leur performance se voit même améliorée de manière significative.

Un point crucial de cette étude réside dans l’utilisation de descriptions textuelles courtes, générées à partir de modèles audio et d’un modèle de mouvement basé sur un IMU (unité de mesure inertielle). Cette méthode permet une analyse sans intrusion, comme illustré ci-dessous :

Etude Apple les LLM peuvent comprendre vos actions grace

Exploration approfondie des données

Les chercheurs ont utilisé le jeu de données Ego4D, qui regroupe une immense collection de médias filmés en première personne. Ce matériel couvre des heures d’activités de la vie quotidienne, allant de simples tâches ménagères à des activités sportives en extérieur.

Pour leur étude, ils ont sélectionné des échantillons de 20 secondes correspondant à douze activités majeures, comme le nettoyage, la cuisson, ou encore le sport. Ce choix a été fait pour représenter une large diversité d’activités domestiques et sportives, renforçant ainsi la pertinence de l’analyse.

Les données audio et de mouvement ont été traitées par des modèles réduits, produisant des descriptions textuelles. Ces résultats ont ensuite été analysés par différents LLMs (Gemini-2.5-pro et Qwen-32B) pour évaluer leur capacité à identifier les activités.

En fin de compte, Apple a comparé les performances des modèles dans deux contextes : un cadre fermé où une liste d’activités était fournie, et un cadre ouvert sans options prédéfinies. Cette approche a permis d’évaluer leur réaction selon différents types de données fournies.

1763762448 742 Etude Apple les LLM peuvent comprendre vos actions grace

Les résultats de cette enquête fournissent des indications prometteuses sur la synergie entre différents modèles pour améliorer la compréhension des données d’activité et de santé. Cela est particulièrement crucial lorsque les données brutes des capteurs ne suffisent pas à donner une image claire des activités de l’utilisateur.

Dans un geste de transparence, Apple a également partagé des matériaux complémentaires, y compris des identifiants de segments Ego4D et des exemples utilisés lors des expériences, facilitant ainsi la reproduction des résultats par d’autres chercheurs intéressés.

Étude Apple : les LLM peuvent comprendre vos actions grâce aux données audio et de mouvement

Une précision informatisée et non intrusive

Exploration approfondie des données

Le plan en 7 points de Microsoft pour améliorer Windows 11 rend macOS Tahoe plus attrayant

Apple explique pourquoi les puces M5 ont trois types de cœurs différents en interview

Mise à jour de Siri avec Gemini d’Apple attendue ce mois-ci

iOS 27 : nouvelles fonctionnalités, date de sortie et informations complémentaires

iOS 26.4 : de nouveaux widgets ajoutés à l’écran d’accueil de votre iPhone

iOS 26.4 : trois nouvelles fonctionnalités à utiliser au quotidien

Le plan en 7 points de Microsoft pour améliorer Windows 11 rend macOS Tahoe plus attrayant

Apple explique pourquoi les puces M5 ont trois types de cœurs différents en interview

Mise à jour de Siri avec Gemini d’Apple attendue ce mois-ci

iOS 27 : nouvelles fonctionnalités, date de sortie et informations complémentaires

iOS 26.4 : de nouveaux widgets ajoutés à l’écran d’accueil de votre iPhone

Google Photos : comment utiliser la gomme magique pour éliminer trop de personnes sur la photo

Les graphiques AMD offrent 20 % de performances de jeu en plus avec Ray Tracing pour Linux

Meta teste une vidéo selfie façon Face ID pour récupérer des comptes Instagram et Facebook