OpenAI efface accidentellement des résultats de formation de ChatGPT en raison de violations de droits d’auteur

OpenAI accidentally erased ChatGPT training findings as lawyers seek copyright violations

La tension monte entre les médias et les géants de la technologie alors que le New York Times et le Daily News ont décidé de poursuivre OpenAI et Microsoft. Les accusations portent sur l’utilisation présumée de leurs contenus protégés pour entraîner des modèles d’IA comme ChatGPT. Mais la tournure des événements a pris une dimension inattendue : des données cruciales pour leur procès ont été effacées.

Des preuves potentielles perdues

Selon un article de TechCrunch par Kyle Wiggers, les avocats des deux publications avaient obtenu l’accès à deux machines virtuelles fournies par OpenAI. L’objectif étant de vérifier s’ils pouvaient retrouver des éléments de leur contenu dans les ensembles de données d’entraînement de l’IA. Plus de 150 heures de recherche avaient été investies depuis le début du mois de novembre.

Malheureusement, le 14 novembre, une série d’erreurs humaines a conduit à l’effacement des données de recherche stockées sur l’une des machines virtuelles. Ce développement a été signalé dans une lettre adressée à la cour de district des États-Unis pour le district sud de New York. La frustration et la confusion règnent alors même que les avocats avaient investi un temps considérable.

Bien qu’OpenAI ait déclaré avoir récupéré une partie des données, celles-ci ne peuvent plus être présentées comme preuve valable dans un cadre légal. Les avocats se retrouvent donc dans une situation où il leur faut reprendre à zéro un travail coûteux et fastidieux. Tout un parcours juridique remis en question.

Les limites des entreprises technologiques

Dans ce contexte, la question de la transparence des modèles d’IA devient encore plus pressante. Il est courant que de nombreuses entreprises manquent de clarté concernant les données utilisées pour entraîner leurs algorithmes. Pour les médias, la capacité à protéger leur propriété intellectuelle se heurte à des géants dotés de ressources considérables.

La situation actuelle soulève des interrogations quant aux mécanismes en place pour protéger les droits d’auteur dans un monde numérique en constante mutation. La perte de données est mauvaise en soi, mais celle-ci s’ajoute à des pratiques déjà largement controversées. Ce désastre ne fait qu’ajouter à la lourdeur du fardeau qui pèse sur le secteur média face à la montée des technologies.