Apple propose un important jeu de données pour former des modèles d’édition d’images AI

Apple just dropped a massive research dataset to help train AI image editing models

Apple a récemment dévoilé un ensemble de données de recherche fascinant intitulé Pico-Banana-400K, qui se compose de 400 000 images et a été élaboré à l’aide des modèles Gemini-2.5 de Google. Cet article propose un aperçu de ce projet innovant.

Le projet de l’équipe de recherche d’Apple, intitulé « Pico-Banana-400K : un ensemble de données à grande échelle pour la retouche d’image guidée par du texte », a des implications intéressantes dans le domaine de l’édition d’image grâce à l’IA.

En plus de la publication de cette étude, Apple met à disposition l’intégralité de l’ensemble de données constituée, sous une licence de recherche non commerciale. Cela signifie que les chercheurs peuvent l’utiliser à des fins académiques et de recherche, mais pas pour des applications commerciales.

Qu’est-ce que c’est ?

Il y a quelques mois, Google a lancé le modèle Gemini-2.5-Flash-Image, aussi connu sous le nom de Nanon-Banana. Cet outil est souvent présenté comme l’un des meilleurs en matière de retouche d’images.

D’autres modèles ont également démontré des améliorations notables, mais comme l’indiquent les chercheurs d’Apple :

“Malgré ces avancées, la recherche ouverte reste limitée par le manque d’ensembles de données d’édition à grande échelle, de haute qualité et entièrement partageables. Les ensembles de données existants reposent souvent sur des générations synthétiques issues de modèles propriétaires ou sur de petits sous-ensembles sélectionnés manuellement.”

Face à ces problématiques, Apple a décidé d’agir en conséquence.

La construction de Pico-Banana-400K

Pour amorcer le projet, l’équipe d’Apple a extrait un nombre indéterminé de photographies réelles à partir de l’ensemble de données OpenImages, choisies pour couvrir les humains, les objets et des scènes textuelles variées.

Apple propose un important jeu de donnees pour former des
Oui, ils ont effectivement utilisé Comic Sans

Ensuite, ils ont élaboré une liste de 35 types de modifications que l’utilisateur peut demander au modèle, regroupées en huit catégories. Par exemple :

  • Pixel & Photométrique : Ajouter du grain de film ou un filtre vintage
  • Humain-Centré : Figure de style Funko-Pop d’une personne
  • Composition de Scène & Multi-Sujets : Changer les conditions météorologiques (ensoleillé/pluvieux/neigeux)
  • Sémantique au Niveau de l’Objet : Déplacer un objet (changer sa position/relation spatiale)
  • Échelle : Zoomer

Les chercheurs téléversaient ensuite une image sur Nano-Banana avec une de ces demandes. Après que Nano-Banana générait l’image modifiée, Gemini-2.5-Pro analysait le résultat, l’approuvant ou la rejetant en fonction de sa conformité et de sa qualité visuelle.

1761701146 568 Apple propose un important jeu de donnees pour former des

Le résultat a donné naissance à Pico-Banana-400K. Ce dernier inclut des images générées par le biais d’éditions simples (une unique demande), des séquences d’éditions multiples (plusieurs demandes itératives) et des paires de préférences comparant des résultats réussis à des échecs. Cela permet aux modèles d’apprendre à reconnaître les résultats indésirables.

1761701146 84 Apple propose un important jeu de donnees pour former des

Bien que les chercheurs reconnaissent les limitations de Nano-Banana en matière de retouche spatiale précise, d’extrapolation de mise en page et de typographie, ils aspirent à ce que le jeu de données Pico-Banana-400K serve de « fondation solide pour former et évaluer la prochaine génération de modèles de retouche d’images guidés par du texte.

Vous pouvez consulter l’étude sur arXiv, tandis que l’ensemble de données est librement accessible sur GitHub.