Apple propose un important jeu de données pour former des modèles d'édition d'images AI

Apple a récemment dévoilé un ensemble de données de recherche fascinant intitulé Pico-Banana-400K, qui se compose de 400 000 images et a été élaboré à l’aide des modèles Gemini-2.5 de Google. Cet article propose un aperçu de ce projet innovant.

Le projet de l’équipe de recherche d’Apple, intitulé « Pico-Banana-400K : un ensemble de données à grande échelle pour la retouche d’image guidée par du texte », a des implications intéressantes dans le domaine de l’édition d’image grâce à l’IA.

En plus de la publication de cette étude, Apple met à disposition l’intégralité de l’ensemble de données constituée, sous une licence de recherche non commerciale. Cela signifie que les chercheurs peuvent l’utiliser à des fins académiques et de recherche, mais pas pour des applications commerciales.

Qu’est-ce que c’est ?

Il y a quelques mois, Google a lancé le modèle Gemini-2.5-Flash-Image, aussi connu sous le nom de Nanon-Banana. Cet outil est souvent présenté comme l’un des meilleurs en matière de retouche d’images.

D’autres modèles ont également démontré des améliorations notables, mais comme l’indiquent les chercheurs d’Apple :

“Malgré ces avancées, la recherche ouverte reste limitée par le manque d’ensembles de données d’édition à grande échelle, de haute qualité et entièrement partageables. Les ensembles de données existants reposent souvent sur des générations synthétiques issues de modèles propriétaires ou sur de petits sous-ensembles sélectionnés manuellement.”

Face à ces problématiques, Apple a décidé d’agir en conséquence.

La construction de Pico-Banana-400K

Pour amorcer le projet, l’équipe d’Apple a extrait un nombre indéterminé de photographies réelles à partir de l’ensemble de données OpenImages, choisies pour couvrir les humains, les objets et des scènes textuelles variées.

Apple propose un important jeu de donnees pour former des — Oui, ils ont effectivement utilisé Comic Sans

Ensuite, ils ont élaboré une liste de 35 types de modifications que l’utilisateur peut demander au modèle, regroupées en huit catégories. Par exemple :

Pixel & Photométrique : Ajouter du grain de film ou un filtre vintage
Humain-Centré : Figure de style Funko-Pop d’une personne
Composition de Scène & Multi-Sujets : Changer les conditions météorologiques (ensoleillé/pluvieux/neigeux)
Sémantique au Niveau de l’Objet : Déplacer un objet (changer sa position/relation spatiale)
Échelle : Zoomer

Les chercheurs téléversaient ensuite une image sur Nano-Banana avec une de ces demandes. Après que Nano-Banana générait l’image modifiée, Gemini-2.5-Pro analysait le résultat, l’approuvant ou la rejetant en fonction de sa conformité et de sa qualité visuelle.

1761701146 568 Apple propose un important jeu de donnees pour former des

Le résultat a donné naissance à Pico-Banana-400K. Ce dernier inclut des images générées par le biais d’éditions simples (une unique demande), des séquences d’éditions multiples (plusieurs demandes itératives) et des paires de préférences comparant des résultats réussis à des échecs. Cela permet aux modèles d’apprendre à reconnaître les résultats indésirables.

1761701146 84 Apple propose un important jeu de donnees pour former des

Bien que les chercheurs reconnaissent les limitations de Nano-Banana en matière de retouche spatiale précise, d’extrapolation de mise en page et de typographie, ils aspirent à ce que le jeu de données Pico-Banana-400K serve de « fondation solide pour former et évaluer la prochaine génération de modèles de retouche d’images guidés par du texte.

Vous pouvez consulter l’étude sur arXiv, tandis que l’ensemble de données est librement accessible sur GitHub.

Apple propose un important jeu de données pour former des modèles d’édition d’images AI

Qu’est-ce que c’est ?

La construction de Pico-Banana-400K

Elon Musk reconnu coupable de fraude envers les investisseurs de Twitter

iOS 26.4 : une fonctionnalité de sécurité stricte activée automatiquement sur tous les iPhones

WhatsApp pour iPhone : traduction automatique des messages dans 21 langues bientôt disponible

La feuille de route d’Apple pour l’iPhone révèle des changements majeurs à venir

Le plan en 7 points de Microsoft pour améliorer Windows 11 rend macOS Tahoe plus attrayant

Apple explique pourquoi les puces M5 ont trois types de cœurs différents en interview

Elon Musk reconnu coupable de fraude envers les investisseurs de Twitter

iOS 26.4 : une fonctionnalité de sécurité stricte activée automatiquement sur tous les iPhones

WhatsApp pour iPhone : traduction automatique des messages dans 21 langues bientôt disponible

La feuille de route d’Apple pour l’iPhone révèle des changements majeurs à venir

Le plan en 7 points de Microsoft pour améliorer Windows 11 rend macOS Tahoe plus attrayant

Google Photos : comment utiliser la gomme magique pour éliminer trop de personnes sur la photo

Les graphiques AMD offrent 20 % de performances de jeu en plus avec Ray Tracing pour Linux

Meta teste une vidéo selfie façon Face ID pour récupérer des comptes Instagram et Facebook