Apple : un nouveau modèle d’IA crée des objets 3D réalistes à partir d’une seule image

Apple’s new AI model recreates 3D objects with realistic lighting effects from a single image

Les chercheurs d’Apple viennent de dévoiler un modèle d’intelligence artificielle capable de reconstruire un objet en 3D à partir d’une seule image. Cette avancée technique permet de maintenir des effets de réflexion et de lumière cohérents selon différents angles de vue. Découvrons ensemble les détails de cette innovation fascinante.

Contexte innovant

Le concept d’espace latent a gagné en popularité ces dernières années, notamment avec l’essor des modèles d’IA fondés sur l’architecture des transformateurs. En quelques mots, l’espace latent concentre l’information sous forme de représentations numériques, permettant ainsi d’organiser ces données dans un espace multi-dimensionnel.

Cette approche favorise des calculs rapides des distances entre différentes informations. Par exemple, en manipulant les représentations mathématiques de mots, on peut déterminer des relations sémantiques, ce qui est tout aussi valable pour d’autres types de données. C’est dans ce contexte qu’Apple a mis au point son étude.

LiTo : Une avancée majeure

Dans son étude intitulée LiTo : Surface Light Field Tokenization, Apple propose une représentation 3D qui modélise à la fois la géométrie d’un objet et son apparence en fonction des angles de vue.

Ce modèle révolutionnaire combine les informations de façon à créer un espace latent unique qui préserve les effets de lumière, tels que les reflets et les zones lumineuses, même lorsque l’angle d’observation change.

Les travaux antérieurs avaient principalement abordé soit la reconstruction de la géométrie 3D, soit la prédiction d’une apparence diffuse indifférente à la vue, ce qui limitait leur réalisme. Notre méthode encodait des échantillons du champ lumineux d’une surface en vecteurs latents compacts, apprenant à représenter la géométrie et l’apparence dans un espace 3D unifié.

Cette technique permet de générer un objet 3D réaliste à partir d’une seule image, évitant ainsi le recueil d’images multiples pour la reconstruction.

Ainsi, un encodeur compresse les détails de l’objet en une représentation mathématique concisée. Ensuite, un décodeur effectue le processus inverse pour reconstruire l’objet en question, indiquant comment les effets de lumière doivent apparaître.

Entraînement du modèle LiTo

Pour perfectionner ce modèle, les chercheurs ont utilisé des milliers d’objets, rendus sous conditions d’éclairage variées et dans de multiples angles de vue.

Au lieu d’alimenter le modèle avec toutes ces données, ils ont opté pour des échantillons choisis aléatoirement, qui ont été compressés en une représentation plus simple.

Ainsi, un modèle a été entraîné afin de reconstruire l’intégralité de l’objet et son apparence sous différentes conditions de lumière et d’angles. Voici un aperçu des résultats comparant LiTo à un modèle appelé TRELLIS :

Des comparaisons visuelles interactives entre LiTo et TRELLIS sont également disponibles sur la page du projet, offrant une expérience enrichissante pour comprendre ces innovations.