Un groupe de chercheurs du MIT et d’Empirical Health a récemment présenté des résultats fascinants en se basant sur les données de **3 millions de jours** d’utilisation de l’Apple Watch. Grâce à un modèle innovant, ils parviennent à prédire des conditions médicales avec une précision remarquable. Voici ce qu’il faut retenir de cette avancée impressionnante.
Le contexte et la nouvelle architecture
Yann LeCun, ancien Chief AI Scientist chez Meta, avait introduit l’architecture Joint-Embedding Predictive Architecture, ou JEPA, qui enseigne à une IA à déduire le sens des données manquantes. Cette méthode se concentre sur l’inférence plutôt que sur la reconstruction précise des données.
Illustrons cela : lorsqu’une image présente des zones masquées, JEPA analyse les parties visibles pour déduire ce qui pourrait se trouver derrière. Ce fonctionnement permet de surmonter les limites des systèmes d’IA actuels, avec comme objectif d’optimiser la manière dont les machines apprennent et s’adaptent aux situations inconnues.
Depuis la publication de l’étude initiale de LeCun, cette approche a jeté les bases d’un domaine explorant les modèles du monde, se distanciant ainsi des systèmes basés sur la prédiction de tokens comme les LLMs.
L’étude et le potentiel des données Apple Watch
Retournons à l’étude évoquée. Intitulée **JETS : Un modèle de fondation d’auto-supervision pour les données comportementales en santé**, elle a été acceptée lors d’un atelier à NeurIPS. Elle adapte la méthode JEPA aux séries temporelles multivariées irrégulières, comme celles que l’on obtient des dispositifs portables.
Ce projet utilise une base de données longitudinales, comprenant des informations de **16 522 individus**, allant jusqu’à **3 millions de jours** d’observations. Chaque participant a fourni **63 métriques distinctes**, allant de la santé cardiovasculaire à l’activité physique, capturant ainsi des données essentielles.

Un aspect fascinant de cette étude est que seulement **15%** des participants avaient des antécédents médicaux étiquetés. Grâce à des techniques d’auto-apprentissage, les chercheurs ont pu exploiter l’ensemble des données disponibles avant de se concentrer sur les cas étiquetés.
Les chercheurs ont ensuite conçu des triplets d’observations, permettant de transformer chaque donnée en un token, qui a été soumis à un processus de masquage avant d’être analysé par un prédicteur. Cela a permis de mieux évaluer les modèles en matière de détection.

Les résultats sont prometteurs. JETS a atteint un score AUROC de 86,8% pour l’hypertension, illustrant le potentiel de ce modèle face à d’autres approches. Les métriques AUROC et AUPRC, bien qu’elles ne mesurent pas directement la précision, fournissent des indices précieux sur la capacité d’un modèle à classer les cas.
Ce travail démontre l’énorme potentiel des nouveaux modèles. Même lorsque les données sont incomplètes, les techniques innovantes permettent d’extraire des informations vitales. Les études montrent que certaines métriques de santé n’apparaissent que **0,4%** du temps, tandis que d’autres sont présentes dans **99%** des relevés quotidiens.
Finalement, il est clair que les modèles d’apprentissage auto-supervisés peuvent ouvrir la voie à une meilleure compréhension des données déjà collectées par des dispositifs portables comme l’Apple Watch, indépendamment de leur utilisation intermittente.
