Des chercheurs développent un solveur CAPTCHA pour faciliter la recherche sur le dark web

Une équipe de chercheurs des universités d’Arizona, de Géorgie et de Floride du Sud a développé un solveur CAPTCHA basé sur l’apprentissage automatique qui, selon eux, peut surmonter 94,4 % des défis réels sur les sites Web sombres.

L’objectif de l’étude était de créer un système capable de rationaliser les renseignements sur les cybermenaces, qui nécessitent actuellement une intervention humaine pour résoudre manuellement les CAPTCHA.

Les coûts de la cybercriminalité augmentent de façon exponentielle, avec des cyberattaques et des violations de données qui se produisent chaque jour. En tant que tel, avoir un moyen de rendre le dark web plus transparent pour la recherche est essentiel pour prendre des mesures préventives ciblées.

CAPTCHA du dark web

CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) est utilisé par les sites Web pour différencier les utilisateurs réels des bots.

Ces défis sont omniprésents sur le dark web pour protéger les plateformes des attaques DDoS constantes que les plateformes concurrentes lancent les unes contre les autres.

Ces attaques DDoS sont menées par des botnets, et donc avoir une forte couche de CAPTCHA sur la page de connexion peut garder la menace sous contrôle.

Cependant, chaque site Web implémente son propre défi CAPTCHA personnalisé, ce qui rend pratiquement impossible le développement d’un outil capable de résoudre la plupart d’entre eux.

En tant que tel, la collecte de renseignements sur les cybermenaces à partir de marchés et de forums Web sombres illicites devient difficile et coûteuse, car les employés doivent être impliqués dans l’étape de résolution CAPTCHA.

Approche d’apprentissage automatique

Pour résoudre ce problème pratique, les chercheurs ont développé un système qui repose sur l’interprétation d’images pixellisées, qualitativement différente de autres études récentes qui utilisaient également des approches génératives contradictoires basées sur le réseau.

Suivi des frontières et identification des intervalles
*Source : Arxiv.org*

Le nouveau solveur peut distinguer les lettres et les chiffres en les regardant un par un, en débruitant l’image, en identifiant leurs frontières entre les lettres et en segmentant le contenu en caractères individuels.

Débruitage du CAPTCHA et séparation des caractères
*Source : Arxiv.org*

En tant que tel, la taille du défi CAPTCHA n’affecte pas beaucoup l’efficacité du solveur, en particulier lors de la mesure des performances cumulées pour trois tentatives.

Résolution des taux sur différentes tailles de CAPTCHA — Taux de résolution pour différentes tailles de CAPTCHA
*Source : Arxiv.org*

En ce qui concerne la reconnaissance des caractères, le solveur utilise des échantillons extraits dans plusieurs régions locales pour identifier les caractéristiques fines telles que les lignes et les bords, de sorte qu’il ne peut pas être « trompé » par la rotation des caractères, les changements de taille de police ou les mélanges de couleurs.

Échantillons de données présentant différentes formes de police
*Source : Arxiv.org*

Tests en conditions réelles

En utilisant leur modèle de résolution DW-GAN le plus optimisé, les chercheurs l’ont testé par rapport à Yellow Brick, un marché du dark web aujourd’hui disparu qui hébergeait des listes de contenu illicite.

Test du solveur sur le marché de la brique jaune — Test du solveur par rapport au marché Yellow Brick
*Source : Arxiv.org*

Comme le papier explique :

En utilisant un crawler amélioré par notre DW-GAN, nous avons pu collecter 1 831 produits illégaux de Yellow Brick. Parmi ces produits, il y avait 286 articles liés à la cybersécurité, dont 102 cartes de crédit volées, 131 comptes volés, 9 numérisations de documents falsifiés, 44 outils de piratage et 1 223 produits liés à la drogue.

Dans l’ensemble, la collecte d’informations sur le marché « Yellow Brick » avec DW-GAN a pris environ 5 heures sans intervention humaine. En particulier, chaque requête HTTP prenait 8,8 secondes pour charger une nouvelle page Web ; par conséquent, l’exploration de 1 831 pages a pris 268,5 minutes. La résolution des défis CAPTCHA récurrents (pour 15 requêtes HTTP) a pris 18,6 secondes à notre robot DW-GAN.

Dans l’ensemble, le cadre proposé pourrait automatiquement casser CAPTCHA avec pas plus de trois tentatives. Casser toutes les images CAPTCHA prend environ 76 minutes [sic] au total pour l’ensemble des 1 831 pages produits, un processus entièrement automatisé.

Bien sûr, ces données de test concernent un marché particulier du dark web, mais un niveau de performance similaire est attendu sur tout site utilisant des mots CAPTCHA, selon les chercheurs.

Implications potentielles

L’intelligence et les solveurs CAPTCHA hautement performants comme celui-ci peuvent potentiellement perturber l’espace, du moins sur le dark web où des défis moins sophistiqués sont utilisés.

Comparaison des performances avec d'autres solveurs basés sur ML — Comparaison des performances avec d’autres solveurs basés sur ML
*Source : Arxiv.org*

Les auteurs ont publié la version finale de leur solveur sur GitHub, mais pas l’ensemble de données d’entraînement de 50 000 images CAPTCHA.

Quelqu’un pourrait probablement travailler sur ce modèle pour dériver quelque chose qui fonctionne également sur les implémentations CAPTCHA clearnet faibles.

Comme le souligne l’article concernant cette possibilité : « bien que cette étude se concentre principalement sur le CAPTCHA du dark web en tant que problème plus difficile, la méthode proposée dans cette étude devrait être applicable à d’autres types de CAPTCHA sans perte de généralité ».

Ce nouveau solveur a peut-être été développé dans le noble but de lutter contre la cybercriminalité, mais il a toujours le potentiel d’avoir un impact sur ceux qui utilisent le dark web pour l’anonymat et l’échange d’informations en toute sécurité.

Des chercheurs développent un solveur CAPTCHA pour faciliter la recherche sur le dark web

CAPTCHA du dark web

Approche d’apprentissage automatique

Tests en conditions réelles

Implications potentielles

Vulnérabilité critique F5 BIG-IP ciblée par des attaques destructrices

Le centre de cybersécurité britannique a envoyé 33 millions d’alertes aux entreprises

GitHub annonce une expérience 2FA améliorée pour les comptes npm

Microsoft corrige le nouveau relais NTLM zero-day dans toutes les versions de Windows

Microsoft May 2022 Patch Tuesday corrige 3 zero-days et 75 failles

Le gouvernement britannique publie un outil gratuit pour vérifier les risques de cybersécurité des e-mails

M7 Ultra : jusqu’à 1,5 To de RAM, il égalerait enfin le Mac Pro de 2019

Apple Pencil : de nouveaux modèles avec batteries remplaçables attendus l’année prochaine

iPadOS 27 : un multitâche simplifié serait le bienvenu, voici mes suggestions

Route 25 : une application sociale tout-en-un pour les collectionneurs de Pokémon

OpenAI répond à la plainte d’Apple pour vol de secrets commerciaux

Vous pouvez désormais utiliser l’assistant virtuel pour les services publics

Les trois objectifs d’Apple pour iOS 27 : un grand plus pour les utilisateurs

iPhone : un rapport révèle comment la crise des puces mémoire pourrait l’aider