L’algorithme de dissimulation de la voix en temps réel bloque l’espionnage du microphone

L'algorithme de dissimulation de la voix en temps réel bloque l'espionnage du microphone

Image: Kelly Sikkema

Des chercheurs de l’Université de Columbia ont développé un nouvel algorithme capable de bloquer les écoutes audio frauduleuses via des microphones dans les smartphones, les assistants vocaux et les appareils connectés en général.

L’algorithme peut fonctionner de manière prédictive. Il déduit ce que l’utilisateur dira ensuite et génère un bruit de fond audible obstructif (chuchotements) en temps réel pour couvrir le son.

Pour l’instant, le système ne fonctionne qu’avec l’anglais et a un taux de réussite d’environ 80 %. Le volume du bruit est relativement faible, minimisant la perturbation de l’utilisateur et permettant des conversations confortables.

Comme l’ont montré des tests dans le monde réel, le système peut rendre la parole impossible à discerner grâce à la technologie de reconnaissance automatique de la parole, quel que soit le logiciel utilisé et la position du microphone.

Le annonce de l’université promet également un développement futur pour se concentrer sur plus de langues, où la linguistique permet des performances similaires et rend le son du chuchotement complètement imperceptible.

Un problème complexe

Les microphones sont intégrés dans presque tous les appareils électroniques aujourd’hui, et le niveau élevé d’écoutes automatisées des utilisateurs lorsqu’ils reçoivent des publicités pour des produits mentionnés dans des conversations privées.

De nombreux chercheurs ont déjà tenté d’atténuer ce risque en utilisant du bruit blanc qui pourrait tromper les systèmes de reconnaissance automatique de la parole jusqu’à un certain point.

Cependant, il est impossible d’utiliser l’une des méthodes existantes de dissimulation de la voix en temps réel dans des situations pratiques, car l’audio nécessite un calcul quasi instantané qui n’est pas réalisable avec le matériel actuel, affirment les chercheurs.

La seule façon de résoudre ce problème est de développer un modèle prédictif qui suivrait la parole humaine, identifierait ses caractéristiques et générerait des chuchotements perturbateurs en fonction des mots attendus ensuite.

Camouflage de la voix neurale

S’appuyant sur des modèles de prévision de réseaux de neurones profonds appliqués à la dissimulation de pertes de paquets, les chercheurs de Columbia ont développé un nouvel algorithme basé sur ce qu’ils appellent un modèle « d’attaques prédictives ».

Cela consiste à prendre en compte chaque mot prononcé que les modèles de reconnaissance vocale sont entraînés à transcrire, à prédire quand l’utilisateur prononcera ces mots et à générer un chuchotement au bon moment.

Fonctionnement du modèle d'attaque prédictive
Fonctionnement du modèle d’attaque prédictive (Arxiv.org)

Ils ont formé leur modèle pendant deux jours à l’aide de huit GPU NVIDIA RTX 2080Ti sur un ensemble de données vocales de 100 heures qui a été ajusté à cet effet avec des passes en arrière et en avant.

Un exemple de décalage d'onde sonore qui rend la parole méconnaissable
Exemple de décalage d’onde sonore qui rend la parole méconnaissable (Arxiv.org)

Comme l’expliquent les chercheurs dans la fiche techniqueils ont découvert que le temps de prédiction optimal était de 0,5 seconde dans le futur.

Leurs expériences ont testé l’algorithme par rapport à divers systèmes de reconnaissance vocale, trouvant un taux global d’erreurs de mots induites de 80% lorsque les chuchotements ont été déployés.

Tableau des résultats des tests, WER (taux d'erreur sur les mots), CER (taux d'erreur sur les caractères)
Tableau des résultats des tests, WER (taux d’erreur sur les mots), CER (taux d’erreur sur les caractères) – Arxiv.org

De plus, les scientifiques ont présenté des tests réalistes en salle, ainsi que le texte résultant identifié par les systèmes de reconnaissance vocale dans chaque cas.

Texte vocal avec et sans interruption du chuchotement
Texte vocal avec et sans interruption du chuchotement (Arxiv.org)

Notamment, les expériences ont montré que les mots plus petits comme « le », « notre » et « ils » sont plus difficiles à masquer, tandis que les mots plus longs sont généralement plus faciles à attaquer par leur algorithme.

Conséquences

Cette étude et le développement d’un système perturbateur d’écoute de la parole sont la preuve d’un échec réglementaire systémique contre la collecte de données effrénée pour le marketing ciblé.

Même si ces systèmes anti-espionnage sont largement utilisés à l’avenir, les développeurs d’IA tenteront presque certainement d’ajuster leurs méthodes de reconnaissance pour surmonter les chuchotements perturbateurs ou inverser leur effet.

Plus la complexité de la situation augmente, plus il deviendra difficile pour les gens de protéger leur vie privée.

Par exemple, déployer un outil anti-écoute silencieux à la maison ou au bureau introduit un nouveau point de risque potentiel, car même si ces outils sont dignes de confiance, les cibler pour accéder aux données prédictives en temps réel serait essentiellement une écoute indirecte.