Apple crée un modèle d’IA unique capable de voir, créer et éditer des images

Apple builds single AI model that can see, create and edit images

Après le succès du modèle UniGen, une équipe de chercheurs d’Apple présente avec enthousiasme UniGen 1.5. Ce système redéfinit les frontières de l’analyse d’images et de la génération d’images, tout en ajoutant des capacités d’édition. Découvrons ensemble les innovations apportées par cette version améliorée.

Les évolutions d’UniGen

En mai dernier, Apple a présenté une étude fondamentale sur UniGen, intégrant des stratégies d’entraînement et de test pour un modèle multimodal unifié. Ce modèle révolutionnaire était capable de processer des images tout en générant des contenus au sein d’un même cadre. Moins de modèles, plus d’efficacité.

Image: Apple

Le nouvel article, intitulé UniGen-1.5 : Amélioration de la génération et de l’édition d’images, vient compléter cette recherche. Cette version élargie promet de transformer notre approche de l’édition d’images.

Les caractéristiques d’UniGen-1.5

UniGen-1.5 enrichit le modèle initial d’une capacité d’édition, le tout dans une architecture unique. Cette unification, bien que complexe, s’avère bénéfique. Les chercheurs affirment que la compréhension des images peut considérablement améliorer la génération.

Un des défis majeurs rencontrés par ce modèle réside dans la complexité des instructions d’édition, notamment pour les modifications subtiles. La solution passe par l’étape innovante nommée Alignement des Instructions d’Édition.

“Nous observons que le modèle peine à traiter des scénarios divers d’édition après un ajustement supervisé. C’est pourquoi nous introduisons l’Alignement des Instructions d’Édition, qui optimise la correspondance entre les instructions d’édition et la sémantique de l’image cible.”

Concrètement, avant d’ajuster ses performances via le renforcement, le modèle reçoit une description textuelle détaillée de ce qu’il doit produire. Ce pôle intermédiaire facilite l’assimilation des modifications requises.

Image: Apple

La force d’UniGen-1.5 réside également dans son système de récompenses unifié, appliqué tant à la génération qu’à l’édition. En évaluant les performances sur des benchmarks de l’industrie, ce modèle se révèle très compétitif face aux acteurs majeurs du secteur.

“UniGen-1.5 offre des performances remarquables dans la compréhension, la génération et l’édition d’images, surpassant plusieurs modèles de pointe récents.”

Les résultats expérimentaux laissent entrevoir un avenir prometteur pour UniGen-1.5, qui obtient de meilleures performances que certains modèles commerciaux bien établis.

Image: Apple

Cependant, certaines limitations persistent. Par exemple, UniGen-1.5 rencontre des difficultés lors de la génération de texte et de la cohérence des identités dans certains cas. Ces défis nécessitent encore des recherches et ajustements.

“Des échecs illustrés par UniGen-1.5 révèlent des problèmes tels que des détails textuels imprécis et des changements d’identité visibles.”

Image: Apple