Les chercheurs d’Apple AI vantent un modèle utile sur l’appareil qui « surpasse considérablement » le GPT-4

Les nouvelles fonctionnalités d'IA d'iOS 18 : tout ce que nous savons jusqu'à présent

Siri a récemment tenté de décrire les images reçues dans les messages lors de l’utilisation de CarPlay ou de la fonction d’annonce de notifications. À la manière typique de Siri, la fonctionnalité est incohérente et donne des résultats mitigés.

Néanmoins, Apple va de l’avant avec la promesse de l’IA. Dans un document de recherche récemment publié, les gourous de l’IA d’Apple décrivent un système dans lequel Siri peut faire bien plus que tenter de reconnaître le contenu d’une image. La meilleure partie? Il pense que l’un de ses modèles pour faire cela est meilleur que ChatGPT 4.0.

Dans l’article (ReALM : Reference Resolution As Language Modeling), Apple décrit quelque chose qui pourrait donner un gain d’utilité à un assistant vocal amélioré par un grand modèle de langage. ReALM prend en compte à la fois ce qui est sur votre écran et quelles tâches sont actives. Voici un extrait du journal qui décrit le travail :

1. Entités à l’écran : ce sont des entités actuellement affichées sur l’écran d’un utilisateur.

2. Entités conversationnelles : ce sont des entités pertinentes pour la conversation. Ces entités peuvent provenir d’un tour précédent de l’utilisateur (par exemple, lorsque l’utilisateur dit « Appeler maman », le contact de Maman serait l’entité pertinente en question), ou de l’assistant virtuel (par exemple, lorsque l’agent fournit à un utilisateur une liste de lieux ou d’alarmes parmi lesquels choisir).

3. Entités d’arrière-plan : il s’agit d’entités pertinentes provenant de processus d’arrière-plan qui ne font pas nécessairement partie directement de ce que l’utilisateur voit sur son écran ou de son interaction avec l’agent virtuel ; par exemple, une alarme qui commence à sonner ou de la musique qui joue en arrière-plan.

Si cela fonctionne bien, cela ressemble à une recette pour un Siri plus intelligent et plus utile. Apple semble également confiant dans sa capacité à accomplir une telle tâche avec une rapidité impressionnante. L’analyse comparative est comparée à ChatGPT 3.5 et ChatGPT 4.0 d’OpenAI :

Comme autre référence, nous exécutons les variantes GPT-3.5 (Brown et al., 2020 ; Ouyang et al., 2022) et GPT-4 (Achiam et al., 2023) de ChatGPT, disponibles le 24 janvier 2024, avec apprentissage en contexte. Comme dans notre configuration, nous visons à ce que les deux variantes prédisent une liste d’entités à partir d’un ensemble disponible. Dans le cas de GPT-3.5, qui n’accepte que du texte, notre entrée se compose uniquement de l’invite ; cependant, dans le cas de GPT-4, qui a également la capacité de contextualiser les images, nous fournissons au système une capture d’écran pour la tâche de résolution de référence à l’écran, ce qui, selon nous, contribue à améliorer considérablement les performances.

Alors, comment fonctionne le modèle d’Apple ?

Nous démontrons de grandes améliorations par rapport à un système existant avec des fonctionnalités similaires sur différents types de références, notre plus petit modèle obtenant des gains absolus de plus de 5 % pour les références à l’écran. Nous nous comparons également aux GPT-3.5 et GPT-4, notre plus petit modèle atteignant des performances comparables à celles du GPT-4, et nos plus grands modèles les surpassant considérablement.

Le surpassant considérablement, dites-vous ? Le document conclut en partie comme suit :

Nous montrons que ReaLM surpasse les approches précédentes et fonctionne à peu près aussi bien que le LLM de pointe actuel, GPT-4, bien qu’il contienne beaucoup moins de paramètres, même pour les références à l’écran, bien qu’il soit purement dans le domaine textuel. Il surpasse également GPT-4 pour les déclarations utilisateur spécifiques à un domaine, faisant ainsi de ReaLM un choix idéal pour un système de résolution de référence pratique pouvant exister sur l’appareil sans compromettre les performances.

Sur l’appareil sans compromettre les performances semble essentiel pour Apple. Nous espérons que les prochaines années de développement de la plate-forme devraient être intéressantes, à commencer par iOS 18 et la WWDC 2024 le 10 juin.

Envie de vous détendre un peu ? Voici un reportage très intéressant sur l’intelligence artificielle :

YouTube video