De nombreux sites Web parmi les plus importants ont choisi de ne pas suivre la formation Apple Intelligence

De nombreux sites Web parmi les plus importants ont choisi de ne pas suivre la formation Apple Intelligence

Le paysage numérique évolue, mettant en lumière les enjeux de l’intelligence artificielle et de l’utilisation des contenus en ligne. Alors qu’Apple ajuste ses mécanismes de formation de l’IA, de nombreux éditeurs choisissent de se soustraire à ce processus. Cette dynamique soulève des questions sur la propriété intellectuelle et les relations entre grandes entreprises technologiques et créateurs de contenu.

Les systèmes d’IA générative sont formés en leur permettant de surfer sur le Web pour récupérer du contenu. Apple permet aux éditeurs de refuser son scraping, et un nouveau rapport indique que de nombreux sites Web parmi les plus importants ont spécifiquement choisi de ne pas suivre la formation Apple Intelligence.

Cela inclut à la fois Facebook et Instagram, ainsi que de nombreux sites d’information et de médias de premier plan comme le New York Times et The Atlantic…

La formation de l’IA d’Apple

Les grands modèles linguistiques comme ChatGPT sont formés en leur donnant accès à des millions de mots de matériel source, allant des articles d’actualité aux commentaires des utilisateurs.

Dans le cas d’Apple, la société utilise depuis des années Applebot pour entraîner Siri et faire apparaître les suggestions Spotlight. Plus récemment, la société a également utilisé Applebot pour entraîner Apple Intelligence.

Cette pratique est controversée, car les IA utilisent en réalité des contenus protégés par le droit d’auteur pour en générer leurs propres versions. Pour des sujets plus spécialisés, où les sources sont rares, on a même constaté qu’elles régurgitaient des paragraphes entiers sans pratiquement aucune modification.

Mais Apple le fait de manière éthique, en permettant aux éditeurs de se retirer et en filtrant les données personnelles (même si une source tierce l’a repéré).

Nous formons nos modèles de base sur des données sous licence, y compris des données sélectionnées pour améliorer des fonctionnalités spécifiques, ainsi que des données accessibles au public collectées par notre robot d’exploration Web, AppleBot. Les éditeurs Web ont la possibilité de refuser l’utilisation de leur contenu Web pour la formation Apple Intelligence avec un contrôle d’utilisation des données […]

Nous appliquons des filtres pour supprimer les informations personnelles identifiables telles que les numéros de sécurité sociale et de carte de crédit qui sont accessibles au public sur Internet.

Apple utilise une balise Applebot-Extended pour permettre aux sites de refuser la formation de l’IA tout en autorisant l’indexation des recherches, ce qui signifie que leurs éléments peuvent toujours être inclus dans les recherches Spotlight et Siri.

De nombreux grands éditeurs Web se retirent

Comme la désactivation s’effectue via un fichier robots.txt accessible au public, il est facile de voir quels sites ont procédé de la sorte. Wired a vérifié un certain nombre des plus grands sites d’information et de médias sociaux.

WIRED peut confirmer que Facebook, Instagram, Craigslist, Tumblr, le New York Times, le Financial Times, The Atlantic, Vox Media, le réseau USA Today et la société mère de WIRED, Condé Nast, font partie des nombreuses organisations qui choisissent d’exclure leurs données de la formation IA d’Apple […]

Dans une analyse distincte menée cette semaine, le journaliste de données Ben Welsh a constaté qu’un peu plus d’un quart des sites d’information qu’il a interrogés (294 sur 1 167 publications principalement en anglais basées aux États-Unis) bloquent Applebot-Extended.

Applebot-Extended est une balise relativement nouvelle, il est donc probable que davantage de sites Web la suppriment également une fois que la notoriété augmentera.

L’argent est bien sûr un facteur

Apple aurait conclu des accords avec certaines sociétés de médias, en échange du droit d’utiliser leur contenu à des fins de formation. Il est probable que ce soit la raison pour laquelle certains sites bloquent actuellement Apple, en attendant une offre de paiement.

« De nombreux grands éditeurs du monde adoptent clairement une approche stratégique », explique Jon Gillham, fondateur d’Originality AI. « Je pense que dans certains cas, il s’agit d’une stratégie commerciale, comme retenir les données jusqu’à ce qu’un accord de partenariat soit conclu. »

iOS 18.1 bêta 3 inclut plusieurs nouvelles fonctionnalités Apple Intelligence, notamment Photo Clean Up et davantage de résumés de notifications.

Photo de Kelli McClintock sur Unsplash