Des chercheurs d’Apple ont récemment présenté une avancée fascinante dans l’entraînement de modèles d’IA pour la légende d’images. Ce nouveau cadre fait appel à une approche novatrice, promettant des descriptions plus précises et riches tout en réduisant la taille des modèles. Plongeons dans cette innovation qui pourrait transformer notre interaction avec les images.
Un modèle révolutionnaire pour l’entraînement des IA multimodales
Intitulée RubiCap : Apprentissage par renforcement guidé par une rubrique pour la légende d’images dense, cette étude, réalisée en collaboration avec l’Université du Wisconsin-Madison, a fait émerger un modèle de légende d’images dense atteignant des résultats exceptionnels dans divers benchmarks.
La légende d’images dense consiste à générer des descriptions détaillées des différentes régions d’une image, à l’opposé d’un simple résumé global. Cela permet d’identifier des éléments variés dans une image, offrant une compréhension plus riche de la scène.
Voici quelques exemples tirés des travaux initiaux de Stanford sur la légende d’images dense :

Ce type de légende trouve des applications dans de nombreuses tâches, notamment dans l’entraînement de modèles vision-langage et de texte à image, tout en améliorant des fonctions utiles comme la recherche d’images et les outils d’accessibilité.
Les chercheurs soulignent que les méthodes actuelles d’entraînement des modèles de légende d’images denses présentent des lacunes majeures :
Bien que la légende d’images dense soit essentielle pour l’alignement cross-modal dans le pré-entraînement vision-langage, le coût des annotations de qualité expert est prohibitif. L’utilisation d’annotations synthétiques à travers des modèles de vision-langage (VLM) est un bon compromis, mais la distillation supervisée peut limiter la diversité et la généralisation. L’apprentissage par renforcement pouvait surmonter ces défis, mais ses succès se limitent à des domaines vérifiables avec des vérificateurs déterministes, un luxe absent dans la légende ouverte.
Face à ces enjeux, les chercheurs ont proposé un cadre novateur pour répondre à ces limitations. Ils ont échantillonné aléatoirement 50 000 images de deux ensembles de données, PixMoCap et DenseFusion-4V-100K.
Pour chaque image, le système a généré plusieurs options de légende grâce à des modèles de langage vision existants. Il a également produit sa propre légende pour cette image.
Ensuite, RubiCap a utilisé le modèle Gemini 2.5 Pro pour :
- Analyser l’image avec les légendes candidates et le propre output du modèle ;
- Identifier les accords et les manques ;
- Formuler des critères clairs pour évaluer les légendes.
Le modèle a ainsi reçu des retours précis sur ce qu’il fallait améliorer, permettant d’obtenir des légendes plus justes. En tout, trois modèles ont été développés : RubiCap-2B, RubiCap-3B et RubiCap-7B, contenant respectivement 2, 3 et 7 milliards de paramètres.
Ces modèles ont surpris par leur performance, surpassant même des modèles possédant jusqu’à 72 milliards de paramètres.

Sur des benchmarks étendus, RubiCap a démontré des taux de réussite impressionnants, dépassant des méthodes de distillation supervisée, des approches RL antérieures, ainsi que des annotations d’experts humains.
Il est important de noter que le modèle de 3 milliards de paramètres a même surpassé son homologue plus volumineux sur certains critères, prouvant qu’un modèle performant en légende d’images ne nécessite pas forcément une échelle massive pour fournir des résultats de qualité.
Comparons quelques légendes entre RubiCap-7B-DenseFusion et Qwen2.5-VL-7B-Instruct :




L’informatique et la technologie continuent d’évoluer, et cette étude nous montre que les innovations en matière d’IA peuvent ouvrir de nouvelles avenues pour l’analyse d’images. C’est une avancée qui mérite d’être suivie avec attention.
