Bonjour,
il faudra que les développeurs s'y mettent un jour, le plus tôt sera le mieux, pour eux et leurs clients.
Je veux parler du web-scraping ou fouilles de données, procédé destiné à nourrir les bases de données de l'IA. Chacun est libre de penser ce qu'il veut de ce problème. Le fait est que des outils existent déjà pour, au pire, empêcher la fouille de nos données ou au mieux, envoyer des avertissements permettant aux créateurs de contenus d'en tirer une contrepartie équitable. Le flou juridique subsiste encore dans ce domaine, mais déjà, des textes sont en place (Commission Européenne, code de la propriété Littéraire et Artistique, la SACEM qui a engagé la protection de ses membres). De mon côté, j'ai décidé de ne pas me laisser piller sans contrepartie ; c'est pourquoi je propose ici ai.txt, un petit générateur destiné à mettre en place sur un site web un avertissement, lisible par les machines.
https://site.spawning.ai/spawning-ai-txt
Sur la page, on choisit le type de données que l'on veut protéger. Le choix fait, on télécharge le petit fichier texte que l'on placera à la racine du site. Il est bien précisé dans la FAQ que ce fichier text n'a aucune influence sur les moteurs de recherche habituels. C'est simple, mais il est conseillé d'ajouter l'op-in dans les mentions générales du site. C'est une précaution supplémentaire.
Il existe aussi un outil plus élaboré qui permet d'inscrire dans le fichier robot.txt directement les noms des "scrapers". Cette fois, c'est un blocage. Par exemple :
https://github.com/healsdata/ai-training-opt-out?tab=readme-ov-file
Mis à part l'avertissement dans les conditions générales (l'opt-in), je n'ai pas encore mis en place les deux possibilités décrites ci-dessus.
Que pensez-vous de tout ça ?
Modifié par Bongota (29 May 2025 - 22:00)
il faudra que les développeurs s'y mettent un jour, le plus tôt sera le mieux, pour eux et leurs clients.
Je veux parler du web-scraping ou fouilles de données, procédé destiné à nourrir les bases de données de l'IA. Chacun est libre de penser ce qu'il veut de ce problème. Le fait est que des outils existent déjà pour, au pire, empêcher la fouille de nos données ou au mieux, envoyer des avertissements permettant aux créateurs de contenus d'en tirer une contrepartie équitable. Le flou juridique subsiste encore dans ce domaine, mais déjà, des textes sont en place (Commission Européenne, code de la propriété Littéraire et Artistique, la SACEM qui a engagé la protection de ses membres). De mon côté, j'ai décidé de ne pas me laisser piller sans contrepartie ; c'est pourquoi je propose ici ai.txt, un petit générateur destiné à mettre en place sur un site web un avertissement, lisible par les machines.
https://site.spawning.ai/spawning-ai-txt
Sur la page, on choisit le type de données que l'on veut protéger. Le choix fait, on télécharge le petit fichier texte que l'on placera à la racine du site. Il est bien précisé dans la FAQ que ce fichier text n'a aucune influence sur les moteurs de recherche habituels. C'est simple, mais il est conseillé d'ajouter l'op-in dans les mentions générales du site. C'est une précaution supplémentaire.
Il existe aussi un outil plus élaboré qui permet d'inscrire dans le fichier robot.txt directement les noms des "scrapers". Cette fois, c'est un blocage. Par exemple :
User-agent: ChatGPT-User
Disallow: /
https://github.com/healsdata/ai-training-opt-out?tab=readme-ov-file
Mis à part l'avertissement dans les conditions générales (l'opt-in), je n'ai pas encore mis en place les deux possibilités décrites ci-dessus.
Que pensez-vous de tout ça ?
Modifié par Bongota (29 May 2025 - 22:00)