Google Drive signale des fichiers presque vides pour « violation du droit d’auteur »

google drive

Les utilisateurs ont été surpris lorsque les systèmes de détection automatisés de Google Drive ont signalé un fichier presque vide pour violation du droit d’auteur.

Le fichier, selon un utilisateur de Drive, ne contenait rien d’autre que le chiffre « 1 » à l’intérieur.

Le chiffre ‘1’ est-il protégé par le droit d’auteur ?

Cette semaine, le professeur adjoint à la Michigan State University, le Dr Emily Dolson, Ph.D. signalé avoir vu un comportement étrange lors de l’utilisation de Google Drive.

L’un des fichiers du Google Drive de Dolson, « output04.txt », était presque vide, avec rien d’autre que le chiffre « 1 » à l’intérieur.

Mais selon Google, ce fichier a violé la « Politique de violation des droits d’auteur » de l’entreprise et a donc été signalé.

Et le pire, c’est que l’avertissement envoyé au professeur se terminait par « Une révision ne peut pas être demandée pour cette restriction ».

Le fichier ‘output04.txt’ de Dolson était stocké dans le chemin ‘CSE 830 Spring 2022/Testcases/Homework3/Q3/output’ dans Drive, ce qui a amené le professeur à se demander si le chemin du fichier peut-être contribué à la fausse alerte.

Présent sur le « compte Google non éducatif » de Dolson, le fichier faisait partie d’un lot de TXT contenant des résultats générés dans le cadre d’un devoir à la maison.

Un chiffre de trop

Un utilisateur pseudonyme a également partagé des captures d’écran de son compte Google Drive où les fichiers contenant uniquement le chiffre « 1 », avec ou sans caractères de nouvelle ligne, étaient signalés.

« Les fichiers à 1 octet contiennent uniquement ‘1’, le fichier à 2 octets est ‘1n’ et le fichier à 3 octets (pas encore marqué) a ‘1rn’, » a écrit l’utilisateur.

violation du droit d'auteur de google drive
Fichiers avec ‘1’ également signalés par Google Drive pour violation du droit d’auteur (Imgur)

Et, il s’avère que le comportement n’est pas limité aux seuls fichiers contenant le chiffre « 1 ».

Le Dr Chris Jefferson, Ph.D., chercheur en IA et en mathématiques à l’Université de St Andrews, a également pu reproduire le problème lors du téléchargement de plusieurs fichiers générés par ordinateur sur Drive.

Jefferson a généré plus de 2 000 fichiers, chacun contenant juste un nombre entre -1000 et 1000.

Les fichiers contenant les chiffres 173, 174, 186, 266, 285, 302, 336, 451, 500 et 833 ont été rapidement signalés par Google Drive pour violation du droit d’auteur.

Certains prétendent que si le fichier ne contient que le chiffre « 0 », Google désactiverait définitivement votre compte, bien que le résultat s’applique plus probablement aux utilisateurs que Google considère comme des contrevenants à répétition.

« J’ai supprimé l’expérience, juste au cas où mon compte serait supprimé pour trop de numéros coquins », écrit Jefferson.

Mikko Ohtamaa, fondateur de la société Defi Capitalgram, allégué que le style automatisé de Google pour signaler les candidats suspectés d’infraction au droit d’auteur pourrait être problématique avec certaines parties de la législation GDPR.

Attention toutefois au RGPD Article 22 alias « prise de décision individuelle automatisée, y compris le profilage », se réfère plus spécifiquement à la prise de décisions automatisées concernant personnes en profilant leur comportement en ligne, par exemple avant d’accorder un prêt ou lors de la prise de décisions d’embauche, comme expliqué par l’ICO du Royaume-Uni.

« J’aurais plus de sympathie si ce n’était pas » Un examen ne peut pas être demandé pour cette restriction «  » écrit Utilisateur de HackerNews OneLeggedCat. « Il est conçu pour être aussi brutal et draconien que possible. Ils ont choisi cela. Il est coupable jusqu’à preuve du contraire, sans recours. »

On ne sait pas encore ce qui cause ce comportement, et EZpublish-france.fr n’a pas été en mesure de reproduire le problème au moment de la rédaction.

En 2018, Google a publié un rapport détaillé document expliquant comment l’entreprise lutte contre le piratage. Mais lorsqu’il s’agit spécifiquement de Google Drive, le rapport indique une « ingénierie d’abus à temps plein
équipe » a été créée par Google pour lutter contre les flux illégaux diffusés sur Google Drive. En tant que tel, peu d’informations sont disponibles sur la manière dont les algorithmes de Google traitent le contenu non vidéo stocké sur Drive.

EZpublish-france.fr a contacté Google bien avant la publication avec des questions spécifiques, par exemple, si Google s’appuyait sur sommes de contrôle pour garder une trace du contenu protégé par des droits d’auteur et si ce comportement découlait d’un possible collision de hachage entre des fichiers protégés par des droits d’auteur et des fichiers bénins partageant le même hachage.

Nous n’avons pas eu de nouvelles de Google pour le moment.