Récemment, une équipe de chercheurs d’Apple et de l’Université de Tel-Aviv a présenté une technologie innovante visant à améliorer la génération de la parole à partir de texte, grâce à l’intelligence artificielle. Ce travail offre une nouvelle perspective sur la rapidité avec laquelle les systèmes de synthèse vocale peuvent fonctionner, tout en garantissant la clarté du discours produit. Voici un aperçu de cette avancée prometteuse.
Une approche novatrice pour accélérer la génération de parole
Dans une étude intitulée Principled Coarse-Grained Acceptance for Speculative Decoding in Speech, les chercheurs d’Apple ont exploré les modèles de synthèse vocale autoregressive, qui créent des segments audio un à un. Ce processus, bien que fonctionnel, présente des limitations en matière de rapidité, comme l’expliquent les chercheurs.
Ces modèles, bien qu’efficaces, se heurtent à des problèmes de vitesse en raison de leur rigueur. En effet, ils n’acceptent que des correspondances exactes pour les segments audio, ce qui peut ralentir la génération de la parole. Les chercheurs ont donc cherché des solutions pour contourner cette contrainte.
Pour les modèles de génération de discours, le besoin d’une correspondance exacte entre les tokens est trop restrictif, ce qui limite la rapidité et augmente les taux de rejet des bonnes prévisions.
Le PCG : une nouvelle stratégie
La solution mise en avant par les chercheurs repose sur le concept que plusieurs tokens peuvent produire des sons très similaires. Le Principled Coarse-Graining (PCG) permet ainsi de regrouper des tokens acoustiques proches, rendant le processus de validation plus flexible.
En simplifiant, plutôt que de considérer chaque son comme unique, cette méthode permet d’accepter des tokens qui appartiennent à un groupe sonore similaire. Cela aboutit à une réduction significative des temps de traitement.

Le procédé PCG combine deux modèles : un modèle plus compact propose rapidement des tokens, tandis qu’un modèle plus grand vérifie si ces derniers correspondent au groupe acoustique adéquat. Cette architecture a permis d’accélérer la génération vocale d’environ 40%, une avancée significative dans ce domaine.

Cette méthode a également réussi à maintenir des taux d’erreur de mot faibles tout en préservant la similarité du locuteur et en offrant une meilleure performance que les méthodes antérieures, atteignant un score de 4.09 en naturalité, sur une échelle de 1 à 5.
Applications potentielles du PCG
Bien que l’étude ne précise pas les applications concrètes de ses résultats, ce modèle pourrait avoir un impact significatif sur les futures fonctionnalités vocales d’Apple. L’équilibre entre rapidité, qualité et efficacité est essentiel dans ce contexte.
Un point crucial de cette technique réside dans le fait qu’elle n’exige pas de reformation du modèle cible, car l’ajustement prend place lors de la phase de décodage. Cela signifie que les modèles de synthèse vocale existants pourraient bénéficier immédiatement de cette amélioration.
De plus, le PCG requiert peu de ressources supplémentaires, seulement environ 37 Mo de mémoire pour stocker les groupes acoustiques, rendant son déploiement sur des appareils à mémoire limitée facile et pratique. Cette avancée pourrait redéfinir les attentes en matière de technologie vocale futuriste.
