Une équipe de chercheurs des universités d’Arizona, de Géorgie et de Floride du Sud a développé un solveur CAPTCHA basé sur l’apprentissage automatique qui, selon eux, peut surmonter 94,4 % des défis réels sur les sites Web sombres.
L’objectif de l’étude était de créer un système capable de rationaliser les renseignements sur les cybermenaces, qui nécessitent actuellement une intervention humaine pour résoudre manuellement les CAPTCHA.
Les coûts de la cybercriminalité augmentent de façon exponentielle, avec des cyberattaques et des violations de données qui se produisent chaque jour. En tant que tel, avoir un moyen de rendre le dark web plus transparent pour la recherche est essentiel pour prendre des mesures préventives ciblées.
CAPTCHA du dark web
CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) est utilisé par les sites Web pour différencier les utilisateurs réels des bots.
Ces défis sont omniprésents sur le dark web pour protéger les plateformes des attaques DDoS constantes que les plateformes concurrentes lancent les unes contre les autres.
Ces attaques DDoS sont menées par des botnets, et donc avoir une forte couche de CAPTCHA sur la page de connexion peut garder la menace sous contrôle.
Cependant, chaque site Web implémente son propre défi CAPTCHA personnalisé, ce qui rend pratiquement impossible le développement d’un outil capable de résoudre la plupart d’entre eux.
En tant que tel, la collecte de renseignements sur les cybermenaces à partir de marchés et de forums Web sombres illicites devient difficile et coûteuse, car les employés doivent être impliqués dans l’étape de résolution CAPTCHA.
Approche d’apprentissage automatique
Pour résoudre ce problème pratique, les chercheurs ont développé un système qui repose sur l’interprétation d’images pixellisées, qualitativement différente de autres études récentes qui utilisaient également des approches génératives contradictoires basées sur le réseau.
Source : Arxiv.org
Le nouveau solveur peut distinguer les lettres et les chiffres en les regardant un par un, en débruitant l’image, en identifiant leurs frontières entre les lettres et en segmentant le contenu en caractères individuels.
Source : Arxiv.org
En tant que tel, la taille du défi CAPTCHA n’affecte pas beaucoup l’efficacité du solveur, en particulier lors de la mesure des performances cumulées pour trois tentatives.
Source : Arxiv.org
En ce qui concerne la reconnaissance des caractères, le solveur utilise des échantillons extraits dans plusieurs régions locales pour identifier les caractéristiques fines telles que les lignes et les bords, de sorte qu’il ne peut pas être « trompé » par la rotation des caractères, les changements de taille de police ou les mélanges de couleurs.
Source : Arxiv.org
Tests en conditions réelles
En utilisant leur modèle de résolution DW-GAN le plus optimisé, les chercheurs l’ont testé par rapport à Yellow Brick, un marché du dark web aujourd’hui disparu qui hébergeait des listes de contenu illicite.
Source : Arxiv.org
Comme le papier explique :
En utilisant un crawler amélioré par notre DW-GAN, nous avons pu collecter 1 831 produits illégaux de Yellow Brick. Parmi ces produits, il y avait 286 articles liés à la cybersécurité, dont 102 cartes de crédit volées, 131 comptes volés, 9 numérisations de documents falsifiés, 44 outils de piratage et 1 223 produits liés à la drogue.
Dans l’ensemble, la collecte d’informations sur le marché « Yellow Brick » avec DW-GAN a pris environ 5 heures sans intervention humaine. En particulier, chaque requête HTTP prenait 8,8 secondes pour charger une nouvelle page Web ; par conséquent, l’exploration de 1 831 pages a pris 268,5 minutes. La résolution des défis CAPTCHA récurrents (pour 15 requêtes HTTP) a pris 18,6 secondes à notre robot DW-GAN.
Dans l’ensemble, le cadre proposé pourrait automatiquement casser CAPTCHA avec pas plus de trois tentatives. Casser toutes les images CAPTCHA prend environ 76 minutes [sic] au total pour l’ensemble des 1 831 pages produits, un processus entièrement automatisé.
Bien sûr, ces données de test concernent un marché particulier du dark web, mais un niveau de performance similaire est attendu sur tout site utilisant des mots CAPTCHA, selon les chercheurs.
Implications potentielles
L’intelligence et les solveurs CAPTCHA hautement performants comme celui-ci peuvent potentiellement perturber l’espace, du moins sur le dark web où des défis moins sophistiqués sont utilisés.
Source : Arxiv.org
Les auteurs ont publié la version finale de leur solveur sur GitHub, mais pas l’ensemble de données d’entraînement de 50 000 images CAPTCHA.
Quelqu’un pourrait probablement travailler sur ce modèle pour dériver quelque chose qui fonctionne également sur les implémentations CAPTCHA clearnet faibles.
Comme le souligne l’article concernant cette possibilité : « bien que cette étude se concentre principalement sur le CAPTCHA du dark web en tant que problème plus difficile, la méthode proposée dans cette étude devrait être applicable à d’autres types de CAPTCHA sans perte de généralité ».
Ce nouveau solveur a peut-être été développé dans le noble but de lutter contre la cybercriminalité, mais il a toujours le potentiel d’avoir un impact sur ceux qui utilisent le dark web pour l’anonymat et l’échange d’informations en toute sécurité.