Des chercheurs développent un solveur CAPTCHA pour faciliter la recherche sur le dark web

Captcha Robot

Une équipe de chercheurs des universités d’Arizona, de Géorgie et de Floride du Sud a développé un solveur CAPTCHA basé sur l’apprentissage automatique qui, selon eux, peut surmonter 94,4 % des défis réels sur les sites Web sombres.

L’objectif de l’étude était de créer un système capable de rationaliser les renseignements sur les cybermenaces, qui nécessitent actuellement une intervention humaine pour résoudre manuellement les CAPTCHA.

Les coûts de la cybercriminalité augmentent de façon exponentielle, avec des cyberattaques et des violations de données qui se produisent chaque jour. En tant que tel, avoir un moyen de rendre le dark web plus transparent pour la recherche est essentiel pour prendre des mesures préventives ciblées.

CAPTCHA du dark web

CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) est utilisé par les sites Web pour différencier les utilisateurs réels des bots.

Ces défis sont omniprésents sur le dark web pour protéger les plateformes des attaques DDoS constantes que les plateformes concurrentes lancent les unes contre les autres.

Ces attaques DDoS sont menées par des botnets, et donc avoir une forte couche de CAPTCHA sur la page de connexion peut garder la menace sous contrôle.

Cependant, chaque site Web implémente son propre défi CAPTCHA personnalisé, ce qui rend pratiquement impossible le développement d’un outil capable de résoudre la plupart d’entre eux.

En tant que tel, la collecte de renseignements sur les cybermenaces à partir de marchés et de forums Web sombres illicites devient difficile et coûteuse, car les employés doivent être impliqués dans l’étape de résolution CAPTCHA.

Approche d’apprentissage automatique

Pour résoudre ce problème pratique, les chercheurs ont développé un système qui repose sur l’interprétation d’images pixellisées, qualitativement différente de autres études récentes qui utilisaient également des approches génératives contradictoires basées sur le réseau.

Suivi des frontières et identification des intervalles
Suivi des frontières et identification des intervalles
Source : Arxiv.org

Le nouveau solveur peut distinguer les lettres et les chiffres en les regardant un par un, en débruitant l’image, en identifiant leurs frontières entre les lettres et en segmentant le contenu en caractères individuels.

Débruitage du CAPTCHA et séparation des caractères
Débruitage du CAPTCHA et séparation des caractères
Source : Arxiv.org

En tant que tel, la taille du défi CAPTCHA n’affecte pas beaucoup l’efficacité du solveur, en particulier lors de la mesure des performances cumulées pour trois tentatives.

Résolution des taux sur différentes tailles de CAPTCHA
Taux de résolution pour différentes tailles de CAPTCHA
Source : Arxiv.org

En ce qui concerne la reconnaissance des caractères, le solveur utilise des échantillons extraits dans plusieurs régions locales pour identifier les caractéristiques fines telles que les lignes et les bords, de sorte qu’il ne peut pas être « trompé » par la rotation des caractères, les changements de taille de police ou les mélanges de couleurs.

Échantillons de données présentant différentes formes de police
Échantillons de données présentant différentes formes de police
Source : Arxiv.org

Tests en conditions réelles

En utilisant leur modèle de résolution DW-GAN le plus optimisé, les chercheurs l’ont testé par rapport à Yellow Brick, un marché du dark web aujourd’hui disparu qui hébergeait des listes de contenu illicite.

Test du solveur sur le marché de la brique jaune
Test du solveur par rapport au marché Yellow Brick
Source : Arxiv.org

Comme le papier explique :

En utilisant un crawler amélioré par notre DW-GAN, nous avons pu collecter 1 831 produits illégaux de Yellow Brick. Parmi ces produits, il y avait 286 articles liés à la cybersécurité, dont 102 cartes de crédit volées, 131 comptes volés, 9 numérisations de documents falsifiés, 44 outils de piratage et 1 223 produits liés à la drogue.

Dans l’ensemble, la collecte d’informations sur le marché « Yellow Brick » avec DW-GAN a pris environ 5 heures sans intervention humaine. En particulier, chaque requête HTTP prenait 8,8 secondes pour charger une nouvelle page Web ; par conséquent, l’exploration de 1 831 pages a pris 268,5 minutes. La résolution des défis CAPTCHA récurrents (pour 15 requêtes HTTP) a pris 18,6 secondes à notre robot DW-GAN.

Dans l’ensemble, le cadre proposé pourrait automatiquement casser CAPTCHA avec pas plus de trois tentatives. Casser toutes les images CAPTCHA prend environ 76 minutes [sic] au total pour l’ensemble des 1 831 pages produits, un processus entièrement automatisé.

Bien sûr, ces données de test concernent un marché particulier du dark web, mais un niveau de performance similaire est attendu sur tout site utilisant des mots CAPTCHA, selon les chercheurs.

Implications potentielles

L’intelligence et les solveurs CAPTCHA hautement performants comme celui-ci peuvent potentiellement perturber l’espace, du moins sur le dark web où des défis moins sophistiqués sont utilisés.

Comparaison des performances avec d'autres solveurs basés sur ML
Comparaison des performances avec d’autres solveurs basés sur ML
Source : Arxiv.org

Les auteurs ont publié la version finale de leur solveur sur GitHub, mais pas l’ensemble de données d’entraînement de 50 000 images CAPTCHA.

Quelqu’un pourrait probablement travailler sur ce modèle pour dériver quelque chose qui fonctionne également sur les implémentations CAPTCHA clearnet faibles.

Comme le souligne l’article concernant cette possibilité : « bien que cette étude se concentre principalement sur le CAPTCHA du dark web en tant que problème plus difficile, la méthode proposée dans cette étude devrait être applicable à d’autres types de CAPTCHA sans perte de généralité ».

Ce nouveau solveur a peut-être été développé dans le noble but de lutter contre la cybercriminalité, mais il a toujours le potentiel d’avoir un impact sur ceux qui utilisent le dark web pour l’anonymat et l’échange d’informations en toute sécurité.