Avec l’émergence de modèles d’intelligence artificielle toujours plus puissants, le développement du Ferret-UI Lite se distingue par sa légèreté tout en offrant des performances de haut niveau. Ce modèle, bien qu’introduit récemment, révèle des avancées significatives dans la compréhension des interfaces graphiques, se rapprochant des capacités de modèles bien plus volumineux. Découvrons ensemble les innovations qu’Apple a mises en œuvre dans cette nouvelle famille de modèles Ferret.
Origines du modèle Ferret
En décembre 2023, une équipe de chercheurs a publié une étude intitulée “FERRET: Refer and Ground Anything Anywhere at Any Granularity”. Ce document a marqué le lancement d’un modèle multimodal de langage capable de comprendre les références en langage naturel liées aux éléments spécifiques d’une image. Ce modèle a rapidement attiré l’attention grâce à ses capacités uniques.

Suite à ce succès initial, Apple a poursuivi son innovation avec plusieurs publications élargissant la famille Ferret, tels que Ferretv2 et Ferret-UI. Ces modèles ont été spécifiquement conçus pour renforcer la compréhension et l’interaction avec les écrans d’interface utilisateur, un domaine souvent négligé par les modèles de langage généralistes.
Plongée dans Ferret-UI Lite
Récemment, les chercheurs ont présenté le Ferret-UI Lite, une version allégée du modèle original. Avec seulement 3 milliards de paramètres, il parvient à rivaliser avec des modèles jusqu’à 24 fois plus grands. Cette légèreté lui permet de fonctionner efficacement sur des appareils, en répondant à un besoin croissant de modèles capables de traiter des tâches complexes sans nécessiter des ressources massives.

Ferret-UI Lite intègre plusieurs innovations, dont une méthode unique de découpage et de zoom en temps réel. Lorsqu’il fait une prédiction, il se concentre sur des zones précises de l’interface, ce qui optimise son efficacité. Cette approche extraite des caractéristiques critiques des interfaces tout en minimisant les besoins en calcul.

Enfin, un point particulièrement intéressant est que Ferret-UI Lite génère une partie de ses propres données d’entraînement, s’appuyant sur un système multi-agent interagissant avec différentes plateformes pour produire des exemples d’interaction synthétiques. Cela améliore considérablement sa capacité à capturer la complexité des interactions réelles.

Bien que Ferret-UI Lite ait été évalué sur des environnements GUIs variés tels que Android et des interfaces web, il montre certaines limites dans les interactions complexes par rapport à d’autres modèles plus conséquents. Cependant, il reste un agent performant, régissant les interfaces directement sur un appareil, tout en préservant la confidentialité des données. Une innovation séduisante qui ouvre des perspectives prometteuses.
