Apple a formé une IA capable de mieux légender des images que des modèles plus grands

Des chercheurs d’Apple ont récemment présenté une avancée fascinante dans l’entraînement de modèles d’IA pour la légende d’images. Ce nouveau cadre fait appel à une approche novatrice, promettant des descriptions plus précises et riches tout en réduisant la taille des modèles. Plongeons dans cette innovation qui pourrait transformer notre interaction avec les images.

Un modèle révolutionnaire pour l’entraînement des IA multimodales

Intitulée RubiCap : Apprentissage par renforcement guidé par une rubrique pour la légende d’images dense, cette étude, réalisée en collaboration avec l’Université du Wisconsin-Madison, a fait émerger un modèle de légende d’images dense atteignant des résultats exceptionnels dans divers benchmarks.

La légende d’images dense consiste à générer des descriptions détaillées des différentes régions d’une image, à l’opposé d’un simple résumé global. Cela permet d’identifier des éléments variés dans une image, offrant une compréhension plus riche de la scène.

Voici quelques exemples tirés des travaux initiaux de Stanford sur la légende d’images dense :

Image: DenseCap: Fully Convolutional Localization Networks for Dense Captioning

Ce type de légende trouve des applications dans de nombreuses tâches, notamment dans l’entraînement de modèles vision-langage et de texte à image, tout en améliorant des fonctions utiles comme la recherche d’images et les outils d’accessibilité.

Les chercheurs soulignent que les méthodes actuelles d’entraînement des modèles de légende d’images denses présentent des lacunes majeures :

Bien que la légende d’images dense soit essentielle pour l’alignement cross-modal dans le pré-entraînement vision-langage, le coût des annotations de qualité expert est prohibitif. L’utilisation d’annotations synthétiques à travers des modèles de vision-langage (VLM) est un bon compromis, mais la distillation supervisée peut limiter la diversité et la généralisation. L’apprentissage par renforcement pouvait surmonter ces défis, mais ses succès se limitent à des domaines vérifiables avec des vérificateurs déterministes, un luxe absent dans la légende ouverte.

Face à ces enjeux, les chercheurs ont proposé un cadre novateur pour répondre à ces limitations. Ils ont échantillonné aléatoirement 50 000 images de deux ensembles de données, PixMoCap et DenseFusion-4V-100K.

Pour chaque image, le système a généré plusieurs options de légende grâce à des modèles de langage vision existants. Il a également produit sa propre légende pour cette image.

Ensuite, RubiCap a utilisé le modèle Gemini 2.5 Pro pour :

Analyser l’image avec les légendes candidates et le propre output du modèle ;
Identifier les accords et les manques ;
Formuler des critères clairs pour évaluer les légendes.

Le modèle a ainsi reçu des retours précis sur ce qu’il fallait améliorer, permettant d’obtenir des légendes plus justes. En tout, trois modèles ont été développés : RubiCap-2B, RubiCap-3B et RubiCap-7B, contenant respectivement 2, 3 et 7 milliards de paramètres.

Ces modèles ont surpris par leur performance, surpassant même des modèles possédant jusqu’à 72 milliards de paramètres.

1774479730 880 Apple a forme une IA capable de mieux legender des

Sur des benchmarks étendus, RubiCap a démontré des taux de réussite impressionnants, dépassant des méthodes de distillation supervisée, des approches RL antérieures, ainsi que des annotations d’experts humains.

Il est important de noter que le modèle de 3 milliards de paramètres a même surpassé son homologue plus volumineux sur certains critères, prouvant qu’un modèle performant en légende d’images ne nécessite pas forcément une échelle massive pour fournir des résultats de qualité.

Comparons quelques légendes entre RubiCap-7B-DenseFusion et Qwen2.5-VL-7B-Instruct :

1774479730 153 Apple a forme une IA capable de mieux legender des

1774479730 726 Apple a forme une IA capable de mieux legender des

1774479730 279 Apple a forme une IA capable de mieux legender des

1774479730 197 Apple a forme une IA capable de mieux legender des

L’informatique et la technologie continuent d’évoluer, et cette étude nous montre que les innovations en matière d’IA peuvent ouvrir de nouvelles avenues pour l’analyse d’images. C’est une avancée qui mérite d’être suivie avec attention.

Apple a formé une IA capable de mieux légender des images que des modèles plus grands

Un modèle révolutionnaire pour l’entraînement des IA multimodales

Apple et Micron en désaccord sur les puces mémoire chinoises devant Trump

Nouvelle plainte : un exploit de puce Apple introuvable développé avec des secrets volés

iPhone Ultra : six nouvelles fonctionnalités pour le modèle haut de gamme d’Apple

Tapbots lance Pastebot 3 avec des outils d’organisation et d’automatisation améliorés

Trump promet des représailles contre les amendes de l’UE pour Apple et les géants tech US

Apple Pay : quatre nouvelles fonctionnalités pour une expérience améliorée

Apple et Micron en désaccord sur les puces mémoire chinoises devant Trump

Nouvelle plainte : un exploit de puce Apple introuvable développé avec des secrets volés

iPhone Ultra : six nouvelles fonctionnalités pour le modèle haut de gamme d’Apple

Tapbots lance Pastebot 3 avec des outils d’organisation et d’automatisation améliorés

Trump promet des représailles contre les amendes de l’UE pour Apple et les géants tech US

Vous pouvez désormais utiliser l’assistant virtuel pour les services publics

Apple fait marche arrière et déclare que l’application de méditation populaire doit payer 30 % de frais sur l’App Store sur les « pourboires » envoyés aux enseignants

L’acteur de Ted Lasso, Dani Rojas, devient désormais joueur de football professionnel