Fouilles de données et l'IA

Question

Bongota

29 May 2025 à 18:16

Bonjour,
il faudra que les développeurs s'y mettent un jour, le plus tôt sera le mieux, pour eux et leurs clients.
Je veux parler du web-scraping ou fouilles de données, procédé destiné à nourrir les bases de données de l'IA. Chacun est libre de penser ce qu'il veut de ce problème. Le fait est que des outils existent déjà pour, au pire, empêcher la fouille de nos données ou au mieux, envoyer des avertissements permettant aux créateurs de contenus d'en tirer une contrepartie équitable. Le flou juridique subsiste encore dans ce domaine, mais déjà, des textes sont en place (Commission Européenne, code de la propriété Littéraire et Artistique, la SACEM qui a engagé la protection de ses membres). De mon côté, j'ai décidé de ne pas me laisser piller sans contrepartie ; c'est pourquoi je propose ici ai.txt, un petit générateur destiné à mettre en place sur un site web un avertissement, lisible par les machines.
https://site.spawning.ai/spawning-ai-txt
Sur la page, on choisit le type de données que l'on veut protéger. Le choix fait, on télécharge le petit fichier texte que l'on placera à la racine du site. Il est bien précisé dans la FAQ que ce fichier text n'a aucune influence sur les moteurs de recherche habituels. C'est simple, mais il est conseillé d'ajouter l'op-in dans les mentions générales du site. C'est une précaution supplémentaire.
Il existe aussi un outil plus élaboré qui permet d'inscrire dans le fichier robot.txt directement les noms des "scrapers". Cette fois, c'est un blocage. Par exemple :

User-agent: ChatGPT-User
Disallow: /

https://github.com/healsdata/ai-training-opt-out?tab=readme-ov-file
Mis à part l'avertissement dans les conditions générales (l'opt-in), je n'ai pas encore mis en place les deux possibilités décrites ci-dessus.
Que pensez-vous de tout ça ?
Modifié par Bongota (29 May 2025 - 22:00)

Tony Monast

Modérateur

29 May 2025 à 20:00

Bonjour Bongota,

D'après mes recherches préliminaires, ai.txt n'est pas encore un standard officiel comme l'est robots.txt. Je n'en avais d'ailleurs jamais entendu parler avant aujourd'hui. C'est encore au stade de proposition, n'est-ce pas?

Bongota

29 May 2025 à 20:37

Très certainement, mais ai.txt étant relativement "innocent", on peut toujours l'expérimenter. Le second outil proposé est lui beaucoup plus sérieux. Il s'intègre au fichier robot.txt et opère un blocage. À tester avant de se lancer en production.
Tout ça est encore un peu flou, la technologie ayant pris les devants sur le droit. La poule aux œufs d'or de l'IA fait des envieux, et les auteurs d'images et de musiques sont pour le moment en ordre dispersé. D'autant plus que l'Europe et les USA ne sont pas sur la même longueur d'onde. L'Europe veut réguler. JD Vance, à la conférence sur l'IA il y a deux mois, a dit clairement, pas de régulation.

GuillaumeBauer

30 May 2025 à 16:28

Bonjour,

Pour rester sur le thème de la régulation, je tiens à vous rappeler que le respect des règles listées dans robots.txt se fait uniquement au bon vouloir des agents de collecte (crawlers). Il n'y a aucune obligation légale ni contrainte technique qui impose à un agent logiciel de respecter le contenu de votre fichier robots.txt. On sait déjà depuis un moment que pas mal de robots collecteurs de contenus pour des sociétés qui font de l'IA ne respectent pas les consignes du fichier (https://www.tomshardware.com/tech-industry/artificial-intelligence/several-ai-companies-said-to-be-ignoring-robots-dot-txt-exclusion-scraping-content-without-permission-report). L'optimiste en moi aimerait beaucoup croire que les choses vont s'améliorer mais il faut parfois être réaliste : Internet, c'est un peu le Far-West Smiley biggrin

L'initiative ai.txt est louable, mais je ne pense pas qu'elle prenne.

Mais alors pourquoi les robots de Google, Bing et autres moteurs de recherche respectent-il les directives de robots.txt, me demanderiez-vous ?
En bien c'est un système où toutes les parties prenantes sont gagnantes :
- Les webmestres (eh ouais, je dis les termes) réduisent la charge sur leurs serveurs provoquée par des robots
- Les robots des moteurs de recherche ne consomment pas de ressources inutilement pour indexer du contenu qui ne sera jamais utile pour eux

Dans le cas de la collecte de données pour entraîner des agents conversationnels, les ingénieurs cherchent à obtenir le plus de contenu possible pour entraîner leurs modèles. Plus il y a de données variées, plus le modèle est "bon" (à définir). Plus le modèle est bon, plus il y a de revenus.

En conclusion, pour faire un bon moteur de recherche, on a besoin de collecter des informations pertinentes. Pour faire un bon agent conversationnel, on a besoin de collecter des informations en grande quantité, quelle-que soit leur pertinence. C'est bon ça que je suis convaincu que ai.txt ou même robots.txt ne pourront pas protéger nos sites contre les crawlers des sociétés d'IA, puisque ces dernières n'ont aucun intérêt à respecter leurs directives.

Bongota

30 May 2025 à 17:33

Bonjour,
tout ceci est vrai, connu et documenté.
Ni le robot.txt ni une politique TDMRep (dont je n'ai pas parlé dans mon post) ne pourront empêcher des crawlers d'aspirer nos données.
Il y a quand même une petite différence, et des procès gagnés ont déjà eu lieu. Le fait d'appliquer une politique TDMRep avec un fichier JSON lisible par les machines, doublé d'un avertissement dans les mentions légales, entraîne de facto l'ensemble vers la directive européenne https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri=CELEX:32019L0790
Cette directive a été transposée en droit français à l’article L122-5-3 du code de la propriété intellectuelle. Cette politique TDMRep permet de préciser de façon claire l'opt-out, ce que ne fait pas le fichier robot.txt.

Pour faire court, cette directive, qui est orientée vers le droit d'auteur, appose des exceptions qui ouvrent les données de tous les sites web à la fouille, sauf si le webmaster ou l'auteur des œuvres a explicitement déclaré l'opt-out sur son site. Ce point est crucial. Il ne change rien quant au rapport de force, mais il met une directive en travers, ce qui à l'avenir pourrait inverser les choses. Une politique TDMRep appliquée sur un site est le moyen le plus efficace pour le faire. Les œuvres du domaine de la propriété artistique sont couvertes par la possibilité de l'opt-out. Ne le sont pas les données à caractère scientifique et quelques autres d'ordre public.
Ça vaut ce que ça vaut face à des multinationales de l'IA, mais c'est un début. Un fichier JSON peut aussi introduire non seulement la demande d'autorisation, mais aussi la possibilité d'une licence d'exploitation. Un site imposant comme Le Monde l'a fait. Ils ont passé un accord avec ChatGPT afin de monnayer leurs publications, dont une partie de droits voisins.
https://www.forbes.fr/business/open-ia-maison-mere-de-chatgpt-conclut-un-accord-avec-le-journal-le-monde/
Évidemment qu'ils ont aussi une idée derrière la tête, et ils le disent clairement. C'est de devenir une "référence" sur ChatGPT. Il faut bien se dire que l'IA est tout sauf neutre.

Une juste rémunération, c'est aussi ce que demandent beaucoup d'auteurs de par le monde. Ils ne sont pas tous contre l'IA, ils veulent être rémunérés si leurs données ont été utilisées. Est-ce un mal ?
Après, se posent des questions d'ordre philosophique. Faut-il réglementer une si belle chose, ou laisser faire "la main invisible du marché" qui va nous conduire vers le bonheur. Le fait est que des centaines de millions d'auteurs de toutes sortes ne peuvent accepter le pillage de leur travail au seul but enrichir les multinationales de l'IA. Et tout le monde est concerné.
Quelques procès, pas terminés pour l'instant :
https://www.proces.fr/proces/proces-newyorktimes-contre-openai/
https://www.proces.fr/proces/ia-suno-proces-violation-droits-auteur/

Le débat est ouvert. Smiley cligne

Anymah

3 Jun 2025 à 19:11

Hello,

Une question m’est venue à l’esprit : comment vous pouvez soupçonner un tiers de faire de la récolte de données sans votre accord? Vous avez des logs qui vous le certifie?

Bien qu’il existe une base légale, admettons qu’une société tierce récoltes de manière confirmée les données, est-ce que la procédure qui en suit en vaut la peine? Surtout si elles sont apparement nombreuses et certaines avec beaucoup de moyens.

En ce qui me concerne, toute donnée que j’ai publié sur internet de manière publique, j’ai accepté qu’elle soit perdue et que j’en ai plus le contrôle. Parce que après tout, un robot pour récolter les données, il accède justement à une page… publique. Peu être que c’est à nous de restreindre l’accès aux données correctement?
Modifié par Anymah (03 Jun 2025 - 19:14)

parsimonhi

Modérateur

3 Jun 2025 à 22:22

Bonjour,

À force de bricoler des "protections", on peut aussi devenir moins visible.

Amicalement,

Bongota

3 Jun 2025 à 23:01

C'est aussi un problème qui est, disons, surveillé de près. Pour le moment, Google par exemple a bien précisé qu'ajouter Google-Extended dans le fichier robots.txt n'avait aucune incidence sur leur robot dédié au référencement, mais qui sait et comment vérifier. Installer une politique TDMRep est pour le moment au stade expérimental quant aux effets de bord. Les inconnues sont nombreuses, surtout pour la perte de référencement.
Disons que les plus prudents se protégeront avec simplement une balise META :

<meta name="tdm-reservation" content="1">

C'est peu, mais c'est le signe, lisible par les machines, que l'on a engagé l'op-out.
Infos ici, entre autres : https://zedas.fr/posts/declarer-opposition-au-tdm/
La position de Creative Commons :
https://creativecommons.org/2021/12/17/creative-commons-statement-on-cc-licenses-and-the-ext-and-data-mining-exception-under-article-4-eu-cdsm-directive/
Le W3C : https://www.w3.org/community/reports/tdmrep/CG-FINAL-tdmrep-20240202/
Finalement, l'option avec le fichier robots.txt est peut-être la plus mauvaise.
Modifié par Bongota (03 Jun 2025 - 23:02)

Prévenir un modérateur

Répondre au sujet