La fameux fichier robots.txt !

Question

katystp

26 Apr 2016 à 15:49

Je travaille présentement sur un site wordpress (que je n'ai pas fait)à

Je me suis aperçu que son référencement était nul malgré les semaines qui passaient et Google m'indique qu'un fichier empêche l'accès à mon site :

robots.txt indiquait :
User-agent: *
Disallow:

Maintenant, j'ai modifié mon fichier et il indique
User-agent: *Allow: /

Je lis cette page (https://support.google.com/webmasters/answer/6062596?hl=fr&ref_topic=6061961) et je me demande que doit-on y mettre idéalement ??

~~supprimé~~

26 Apr 2016 à 16:04

Bonjour,

Tu dois tout simplement y mettre les pages autorisées à l'indexation et celle non autorisée (avec ou sans autorisation de lecture).

Voici ce que contient le mien à titre d'exemple :

User-agent: *
Sitemap:  http://[une_url]/sitemap.xml
 
Allow: /[un_nom_de_dossier]/
Disallow: /[un_dossier_à_ne_pas_scanner]/
Noindex: /[un_dossier_a_ne_pas_indexer]/
NoIndex: /*/index.php // <= ne pas indexer ces fichiers

// PS : les indications entre-crochet ainsi que les crochets eux-mêmes sont à remplacer par un nom valide.
// PS2 : remarquez l'utilisation du caractère générique (*)
// PS3 : la première ligne [i]User-agent:[/i] est à compléter soit par un astérisque qui signifie "tous les robots" ou indiquer le nom du robot visé

Sachant que ce fichier est à titre purement informatif.
Interdire l'accès à une zone via ce fichier est inutile si des précautions en amont n'ont pas été prises car rares sont les robots qui jouent le jeu de se conformer au fichier robots.txt

Si tu n'utilise pas une commande ne l'insère pas dans le robots.txt.
Ainsi pas de " Disallow: ".

Si tu mets un robots txt juste pour la forme, autant le rendre générique avec :
User-agent: *
Allow: /
Et c'est tout !

katystp

26 Apr 2016 à 16:33

Merci beaucoup pour ces explications !!

Donc, aucun risque d'utiliser ceci :

User-agent: *
Allow: /

Ton exemple est concret, ça m'éclairci beaucoup !

Est-ce qu'il y aurait un cas où ce serait pertinent d'utiliser

User-agent: *
Disallow: /

Je me demande bien pourquoi c'était ainsi ?? Peut-être que le développeur web avait une raison ?

~~supprimé~~

26 Apr 2016 à 16:42

On pourrait penser que "Disallow: /" aura pour effet d'interdire l'accès à tous les robots à l'ensemble du site.

Inutile : Pourquoi publier un site qui ne doit pas être référencé ?

Faux sentiment de sécurité : Ceci n'empêche que ceux qui souhaitent se conformer à cette directive. Nombre de robots n'ont rien à faire de ces directives surtout lorsqu'ils sont malveillants.

L'interdiction d'une zone se gère autrement que par le robots.txt (voir configuration d'Apache et process côté serveur pour cela).

Je pense que celui (ou celle) qui a mis ça était dans un contexte de développement et non de production. Ainsi il pouvait tester en condition réelle tout en indiquant aux robots que le site n'est pas encore prêt au crawl.

Aucun risque à autoriser l'accès à l'ensemble de l'hébergement ? A toi de voir suivant tes contenus et de la nécessité pour toi qu'ils soient référencés.

Par exemple si tu fais fonctionner une messagerie interne sur ton site et que tu stocke tes messages sous forme de fichier, tu n'auras peut-être pas envie qu'un bot viennent crawler ce dossier.

Sache toutefois que Googlebot est à même de décoder et/ou comprendre du Javascript, des images, du multimédia etc donc pense à laisser ces ressources disponibles aux robots.
Pour les autres je ne sais pas ou suis pas certain.
Les malveillants n'en ont rien à fichtre !

Pour résumer ce fichier indique les préférences du webmestre quand aux ressources à crawler et à indexer mais
n'interdit en aucune façon quoi que ce soit à qui que ce soit (Google restera-t-il bon élève eternam ad vitam ? )
Modifié par Greg_Lumiere (26 Apr 2016 - 19:55)

audrasjb

27 Apr 2016 à 07:41

Bonjour,

L'explication me semble simple. WP disposant de la possiblité de demander aux moteurs de recherche de ne pas indexer le site, la personne qui a monté ce site l'a utilisée avant mise en ligne puis a tout simplement omis de décocher cette option après… en tout cas ça me semble vraiment l'explication la plus rationnelle.

Dans l'admin, l'option se trouve dans Réglage > Lecture.
Modifié par audrasjb (27 Apr 2016 - 07:43)

Sujet clos