Selon un nouveau rapport publié aujourd’hui, un certain nombre de géants de la technologie, dont Apple, ont formé des modèles d’IA sur des vidéos YouTube sans le consentement des créateurs.
Ils ont utilisé des fichiers de sous-titres téléchargés par un tiers à partir de plus de 170 000 vidéos. Parmi les créateurs concernés figurent le critique technique Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver et Jimmy Kimmel…
Les fichiers de sous-titres sont en réalité des transcriptions du contenu vidéo.
Rapports de Wired.
Une enquête menée par Proof News a révélé que certaines des entreprises d’intelligence artificielle les plus riches au monde ont utilisé des éléments provenant de milliers de vidéos YouTube pour former des IA. Ces entreprises ont agi ainsi en dépit des règles de YouTube interdisant la collecte de contenus sur la plateforme sans autorisation.
Notre enquête a révélé que les sous-titres de 173 536 vidéos YouTube, récupérés sur plus de 48 000 chaînes, ont été utilisés par des poids lourds de la Silicon Valley, notamment Anthropic, Nvidia, Apple et Salesforce.
Les téléchargements auraient été effectués par une organisation à but non lucratif appelée EleutherAI, qui affirme aider les développeurs à former des modèles d’IA. Si l’objectif semble avoir été de fournir du matériel de formation aux petits développeurs et aux universitaires, l’ensemble de données a également été utilisé par plusieurs géants de la technologie, dont Apple.
Selon un article de recherche publié par EleutherAI, l’ensemble de données fait partie d’une compilation publiée par l’association à but non lucratif appelée Pile […]
La plupart des ensembles de données de Pile sont accessibles et ouverts à tous ceux qui ont accès à Internet et disposent de suffisamment d’espace et de puissance de calcul pour y accéder. Des universitaires et d’autres développeurs extérieurs aux grandes entreprises technologiques ont utilisé l’ensemble de données, mais ils n’étaient pas les seuls.
Apple, Nvidia et Salesforce, des entreprises évaluées à des centaines de milliards et des milliers de milliards de dollars, décrivent dans leurs articles de recherche et leurs publications comment elles ont utilisé Pile pour entraîner l’IA. Les documents montrent également qu’Apple a utilisé Pile pour entraîner OpenELM, un modèle très en vue lancé en avril, quelques semaines avant que l’entreprise n’annonce qu’elle ajouterait de nouvelles fonctionnalités d’IA aux iPhones et aux MacBooks.
Wired indique qu’Apple n’avait pas répondu à une demande de commentaire au moment de la rédaction.
L’avis de Netcost-security.fr
Il est important de souligner ici qu’Apple n’a pas téléchargé les données elle-même, mais que c’est EleutherAI qui s’en est chargé. C’est cette organisation qui semble avoir enfreint les conditions générales de YouTube.
Malgré tout, même si Apple et les autres entreprises citées ont probablement utilisé de bonne foi un ensemble de données accessibles au public, cela illustre bien le champ de mines juridique créé par l’extraction de données sur le Web pour entraîner les systèmes d’IA. Il existe de nombreux exemples de systèmes d’IA qui ont plagié des paragraphes entiers de texte lorsqu’ils ont été interrogés sur des sujets de niche, et les dangers liés à l’utilisation de matériel sans autorisation ne font qu’augmenter lorsque les entreprises utilisent des ensembles de données compilés par des tiers.
Nous avons contacté Apple pour obtenir des commentaires et nous vous tiendrons au courant de toute réponse.
Capture d’écran : MKBHD
Envie de vous détendre un peu ? Voici un reportage très intéressant sur l’intelligence artificielle :

