Nouveau modèle d'IA soutenu par Apple : générez son et parole à partir de vidéos silencieuses

Dans un monde où les technologies avancent à pas de géant, de nouvelles solutions émergent pour répondre aux défis de la génération audio. C’est dans ce cadre que naît VSSFlow, un modèle innovant dont l’architecture créative permet de générer des sons et de la parole à partir de vidéos silencieuses. Loin d’être un simple produit de recherche, cette avancée représente une réelle opportunité pour améliorer notre interaction avec le contenu audiovisuel.

Une nouvelle approche aux défis audio

Nombreux sont les modèles orientés vidéo auprès desquels l’audio est souvent omis. Les systèmes actuels se décomposent principalement en générateurs de sons ou en modèles de synthèse vocale, qui peinent à allier ces deux fonctions. Traditionnellement, ce découpage entraîne des performances limitées, chaque tâche étant réalisée séparément.

Pour surmonter ces obstacles, une équipe de chercheurs d’Apple et de l’Université Renmin de Chine a collaboré sur VSSFlow. Ce modèle novateur permet désormais de générer des effets sonores et du discours à partir d’une vidéo muette de manière intégrée. L’architecture qu’ils ont imaginée est suffisamment souple pour que l’apprentissage de la parole stimule également celui des sons.

Comment ça fonctionne ?

VSSFlow s’appuie sur des concepts avancés de l’intelligence artificielle. Par exemple, il convertit les transcriptions en séquences de phonèmes tout en apprenant à reconstruire les sons à partir du bruit – un processus appelé flow-matching. Ce modèle fait usage d’une architecture à 10 couches qui fusionne directement les signaux vidéo et de transcription, facilitant la génération simultanée d’effets sonores et de discours.

Ce qui est encore plus fascinant, c’est que l’entraînement commun sur la parole et le son a non seulement amélioré les performances des deux tâches, mais a également prouvé que l’unification pouvait être bénéfique. En alimentant le modèle avec des vidéos silencieuses, tant d’éléments sonores que des dialogues ont pu être assimilés ensemble, renforçant ainsi la capacité de génération audio.

Des résultats prometteurs

Lors des tests, VSSFlow a prouvé son efficacité par rapport à des modèles dédiés uniquement à un type de génération. L’approche unifiée a permis d’obtenir des résultats compétitifs à la fois en matière de sons et de discours. En prenant en compte des paramètres variés, ce modèle a su se démarquer sur plusieurs aspects.

Les chercheurs ont mis en ligne plusieurs démos des résultats obtenus, permettant d’explorer les capacités de VSSFlow dans différentes configurations. De manière réjouissante, ils ont également rendu le code accessible sur GitHub et envisagent de publier les poids du modèle, favorisant une accessibilité accrue à cette technologie.

En somme, VSSFlow propose non seulement une avancée technique significative, mais également une manière innovante d’envisager la production sonore à partir de vidéos. Ces travaux ouvrent la voie à de futures recherches prometteuses dans le domaine de la synthèse audio et visuelle.

Nouveau modèle d’IA soutenu par Apple : générez son et parole à partir de vidéos silencieuses

Une nouvelle approche aux défis audio

Comment ça fonctionne ?

Des résultats prometteurs

Deux nouveaux Macs pourraient sauter les puces M5 et passer directement aux M6

Apple Maps devient le nouveau système de navigation pour certaines voitures Ford

iPhone Ultra : le calendrier de production reste flou après ajustements finaux

ChatGPT a conseillé d’ignorer une condition mortelle, mais reste perçu comme un docteur

Samsung dévoile un aperçu de l’écran sans pli de l’iPhone Ultra

Faut-il s’inquiéter du burn-in des écrans OLED sur les nouveaux Mac ?

Deux nouveaux Macs pourraient sauter les puces M5 et passer directement aux M6

Apple Maps devient le nouveau système de navigation pour certaines voitures Ford

iPhone Ultra : le calendrier de production reste flou après ajustements finaux

ChatGPT a conseillé d’ignorer une condition mortelle, mais reste perçu comme un docteur

Samsung dévoile un aperçu de l’écran sans pli de l’iPhone Ultra

Vous pouvez désormais utiliser l’assistant virtuel pour les services publics

Apple fait marche arrière et déclare que l’application de méditation populaire doit payer 30 % de frais sur l’App Store sur les « pourboires » envoyés aux enseignants

L’acteur de Ted Lasso, Dani Rojas, devient désormais joueur de football professionnel