L’IA de Microsoft peut simuler la voix de n’importe qui avec 3 secondes d’audio

Ilustração da voz VALL-E desenvolvida pela Microsoft

On craint beaucoup ce qui pourrait arriver avec l’Intelligence Artificielle (IA) disponible dans la vie de tous les jours. Dans quelle mesure cette nouvelle technologie va supplanter l’être humain et si elle peut être utilisée à des fins mauvaises et nuisibles à l’humanité. La vérité est qu’aujourd’hui l’IA surprend déjà. Après avoir vu les capacités du projet ChatGPT, Microsoft nous présente maintenant VALL-E. Il s’agit d’un nouveau modèle d’IA text-to-speech.

Après une plate-forme capable de produire des textes comme les humains, vient une technologie qui permet de convertir le texte en parole en réussissant à préserver le ton émotionnel et l’environnement acoustique de l’orateur.

Illustration de la voix VALL-E développée par Microsoft

Trois secondes suffisent à l’IA pour apprendre à imiter une voix humaine

Dans un article publié par Arstechnica, il est révélé que jeudi dernier, les chercheurs de Microsoft ont annoncé un nouveau modèle d’IA de synthèse vocale appelé VALL-E qui peut simuler de près la voix d’une personne lorsqu’on lui donne un échantillon de trois secondes de piste audio.

Une fois qu’une voix spécifique a été apprise, VALL-E peut synthétiser l’audio de cette personne disant n’importe quoi – et le faire d’une manière qui tente de préserver le ton émotionnel de l’orateur.

Ses créateurs spéculent que VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité où un enregistrement d’une personne pourrait être édité et modifié à partir d’une transcription textuelle (en lui faisant dire quelque chose qu’il avait initialement prévu). ‘t dire), et la création de contenu audio lorsqu’il est combiné avec d’autres modèles d’IA générative comme GPT-3.

Microsoft fait référence à cette plate-forme comme un « modèle de langage de codec neuronal ». VALL-E est basé sur une technologie appelée EnCodec, que Meta a annoncée en octobre 2022.

Contrairement à d’autres méthodes de synthèse vocale qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codec audio discrets à partir de messages texte et acoustiques. Il analyse essentiellement le son d’une personne, décompose cette information en composants discrets (appelés « puces ») grâce à EnCodec, et utilise des données d’entraînement pour faire correspondre ce qu’il « sait » sur la façon dont cette voix sonnerait si elle prononçait d’autres phrases en dehors des trois -deuxième échantillon.

Microsoft forme AI VALL-E avec 60 000 heures de parole

Microsoft a formé les capacités de synthèse vocale de VALL-E sur une bibliothèque audio, assemblée par Meta, appelée LibriLight.

Cette base de données audio contient 60 000 heures de discours en anglais par plus de 7 000 locuteurs, dont la plupart proviennent des livres audio du domaine public de LibriVox. Pour que VALL-E génère un bon résultat, la voix dans l’échantillon de trois secondes doit correspondre étroitement à une voix dans les données de formation.

Image d'exemples VLL-E avec parole obtenue grâce à l'intelligence artificielleSelon ArsTechnica, sur le site Web d’exemple VALL-E, Microsoft fournit des dizaines d’exemples audio du modèle d’IA en action. Parmi les échantillons, le « Speaker Prompt » est l’audio de trois secondes fourni au VALL-E qu’il doit imiter.

La « Ground Truth » est un enregistrement préexistant de ce même locuteur prononçant une phrase spécifique à des fins de comparaison (comme le « témoin » dans l’expérience).

La « Baseline » est un exemple de synthèse fournie par un procédé de synthèse texte-parole conventionnel, et l’échantillon « VALL-E » est la sortie du modèle VALL-E.

1673431204 941 LIA de Microsoft peut simuler la voix de nimporte qui

La curiosité est la perspicacité et la vitesse d’apprentissage de la technologie. Apparemment, tout en utilisant VALL-E pour générer ces résultats, les chercheurs ont juste introduit l’échantillon de trois secondes de « Speaker Prompt » et une chaîne de texte (ce qu’ils voulaient que la voix dise) dans VALL-E.

Si vous souhaitez tester les preuves, comparez l’échantillon « Ground Truth » avec l’échantillon « VALL-E » sur le site Web de la plateforme. Dans certains cas, les deux échantillons sont très proches. Plusieurs résultats VALL-E semblent générés par ordinateur, mais il est intéressant de noter qu’il y en a beaucoup d’autres qui pourraient potentiellement être confondus avec la parole humaine, ce qui est le but du modèle.

Envie de vous détendre un peu ? Voici un reportage sur l’intelligence artificielle :