Données Tumblr et WordPress exploitées pour la formation de modèles d’IA

Tumblr and WordPress data exploited for AI model training

Paume faciale : L’IA générative engloutit d’énormes quantités de données et les entreprises ont toujours besoin de nouveau contenu pour développer leurs LLM et autres modèles d’apprentissage automatique. Une startup appelée Automattic est apparemment prête à fournir ce contenu moyennant des frais. L’entreprise s’engage à respecter la vie privée des utilisateurs, mais elle a peut-être déjà transmis certaines données privées à ses partenaires constructeurs IA.

Automattic travaille sur un accord commercial avec Midjourney et OpenAI et a déjà préparé un premier lot de contenu pour alimenter leurs modèles. Une source interne anonyme a déclaré à 404 Media que les accords sont imminents et que la documentation interne fournit la preuve d’un processus de partage de données « compliqué » sur l’un des principaux produits de blogs d’Automattic.

La société, fondée par Matt Mullenweg, possède actuellement les plateformes de micro-blogging Tumblr et WordPress.com, le site de blogs à but lucratif développé sur le logiciel CMS open source WordPress.org. Les données utilisateur sont primordiales pour le développement de l’IA, car les modèles en langages volumineux sont enclins à émettre des charabia absurdes lorsqu’ils sont laissés à eux-mêmes en raison de ce que l’on appelle l’effet de boucle de rétroaction.

L’initié a déclaré qu’Automattic prévoyait d’accorder des droits de désinscription complets aux utilisateurs souhaitant protéger leurs données publiques, y compris les publications et les images. Cependant, des publications internes indiquent que Tumblr a déjà fourni à Midjourney et OpenAI un « vidage initial des données » de tout le contenu publié publiquement entre 2014 et 2023. De plus, une « erreur » a amené Automattic à partager les données privées des utilisateurs de Tumblr avec les deux sociétés d’IA. Bien.

Donnees Tumblr et WordPress exploitees pour la formation de modeles

Après que 404 Media ait rendu public son rapport, Automattic a publié une déclaration sur la « protection du choix des utilisateurs » dans le monde de l’IA en évolution rapide. Le courtier en données « suit de près » les récents progrès de la technologie de l’IA et étudie avec diligence « comment travailler » avec les sociétés d’IA tout en respectant la confidentialité et le contrôle des données des utilisateurs.

Automattic bloque actuellement « par défaut » les robots d’exploration des plateformes d’IA, y compris les robots des plus grandes entreprises technologiques du monde. WordPress.com et Tumblr disposent désormais de paramètres permettant de « décourager » l’exploration des données par les sociétés d’IA, qui sont activés par défaut si un utilisateur avait précédemment désactivé l’indexation des moteurs de recherche.

Automatic admet qu’il n’existe actuellement aucune loi pour forcer les robots d’exploration de l’IA à se conformer à ces préférences de non-indexation. Toutefois, cela pourrait bientôt changer avec la nouvelle législation en cours dans l’Union européenne. La société confirme également qu’elle travaille directement avec des sociétés d’IA « sélectionnées » – à condition que leurs plans de travail s’alignent sur les principes d’Automattic concernant le choix des utilisateurs.

Envie de vous détendre un peu ? Voici un reportage très intéressant sur l’intelligence artificielle :

YouTube video