Url canonique

Question

matissed

18 Apr 2024 à 18:15

bonjour,
j'ai quelques sites qui fonctionnent à peu près bien...
mais depuis "un certain temps", une grosse partie de mes pages ne sont plus indexées pour un problème d'url non canonique.
<link rel="canonical" href="https://delaplace.fr/>.....
je n'ai pas bien compris sur quelles pages, je dois rajouter cette ligne.
mon domaine delaplace comprends 3 sous domaines....
ces trois sous-domaines ont parfois des liens qui renvoient sur des pages d'un autre voir vers un autre domaine,
certaines pages peuvent même figurer en double sur les 3 sous-domaines par exemple un formulaire ou des pages contenant des videos....
bref
dois-je reprendre 500 pages et ajouter le link dans les heads,
ou dois je le rajouter uniquement dans les pages index?
Merci pour votre aide
ps je suis un vieux DOS 3.0 qui est tombé dans le html par hasard il y a 35 ans...

Bongota

18 Apr 2024 à 19:50

Bonjour,
bienvenu dans le domaine canonique de Google et de ses messages abscons à ce sujet.
Normalement, chaque page différente du site doit être canonique et avoir sa balise. C'est parfois utile pour éviter le "duplicate content" d'une page à l'autre. Et aussi pour éviter de se faire "prendre" une page. Apparemment, ce serait très utile dans votre cas de sous-domaines et de pages qui se renvoient l'une à l'autre.
Le problème, c'est qu'on indique une page comme étant canonique et Google décide que pour lui, une autre page est canonique. C'est cette page qui sera avantagée dans le classement, on n'y peut pas grand chose et il faut les laisser faire. Canonique, pour eux, signifierait alors la plus pertinente ? C'est en tout cas ce que j'ai cru comprendre, mais ils ne sont pas clairs à ce sujet. J'ai eu ce message : "Page en double : Google n'a pas choisi la même URL canonique que l'utilisateur".
Sinon, en adhérant à la Serch Console Tool, vous pouvez proposer à l'indexation des pages qui ne le sont plus. Sur cette console, on a parfois des messages comme celui-ci :
Autre page avec balise canonique correcte, mais avec Échec. À n'y rien comprendre.
Après m'être pris la tête avec ça, je commence à oublier leurs messages à ce sujet.
ps : J'ai aussi, un temps très court, utilisé le DOS 3.0. Mais je suis très rapidement parti sur Linux Debian 2.0 et quelques.

Olivier C

18 Apr 2024 à 21:01

Bonjour,

Bongota a donné les subtilités de Google à ce sujet, de mon côté je vais revenir aux fondamentaux : pour les moteurs de recherche il s'agit d'éviter de référencer du duplicate content en ne privilégiant qu'une seule ressource. Donc si deux pages - deux URLs différentes - affichent le même contenu, il faut alors choisir laquelle des deux URLs sera "canonique".

Concrètement, si j'ai par exemple ces deux URLs :

https://exemple.com/mon-article
 https://exemple.com/categorie/mon-article

Je devrais n'en retenir qu'une, au choix, et devrais mettre le même link rel canonical dans le head de ces pages :

<link rel="canonical" href="https://exemple.com/mon-article">

Ceci afin de faire comprendre aux moteurs de recherche que c'est cette page qui est la référence pour le site (dans l'idéal bien sûr, si je mets de côté les considérations de Bongota). Et, si je n'ai pas la main sur le moteur de recherche qui fait ce qu'il veut au niveau de l'indexation, cela devrait au moins éviter de se faire pénaliser pour cause de "duplicate content".
Modifié par Olivier C (18 Apr 2024 - 22:04)

matissed

21 Apr 2024 à 06:42

Bonjour et merci à tous les deux.
Je viens de passer une paire d'heures sur ce problème d'url canonique, qui me paraissait plus compliqué qu'une version latine...
Le message sur ma search console, m'indiquant que 471 pages n'ont pas été indexées m'a un peu décontenancé.
En réalité, je retrouve la grosse majorité de ces pages lors de recherches, ce qui complique sans doute un peu le choix de la page à consulter pour le visiteur.
L'amélioration de tout cela prendra un certains temps.

Il me faudra d'abord sortir les plans des liens de chacun des domaines, sous-domaines, et groupes de pages relatifs à un même sujet, puis déterminer l'URL canonique pour chacun d'entre eux.
Ensuite rajouter dans le head de chacune des pages le fameux link canonical en commençant par les pages en doubles...
Ce qui me permettra en même temps de mettre un peu d'ordre dans tout cela.
En réalité, j'ai découvert ces problèmes quand j' ai voulu limiter les frais d'hébergement pour chacun de mes domaines qui sont passés de 20 à 50€ par an en quelques années...
Si vous avez d'autres suggestions, n'hésitez pas... Smiley smile

Bongota

23 Apr 2024 à 09:01

Bonjour,

pour résumer, et sans prétendre avoir LA réponse absolue, mettre une balise canonique sur chaque page. Oui, ça fait du travail si votre site a 400 pages ! Ça permet d'utiliser des canonicals qui s'autoréférencent. Dans ce cas, chaque page doit avoir une balise canonique qui pointe vers sa propre URL. Voici le lien vidéo sur la conférence de John Mueller à ce sujet (ça date de quatre années).
https://www/watch?v=MD6ABXMMuaI&t=1734s
Après, ne pas hésiter à demander dans la Search Console une nouvelle indexation de chaque page qui ne l'est pas. Sinon, je suppose que vous connaissez la commande site:mon_site
Et ne pas oublier que le sitemap ne doit pas avoir d'url non canoniques.
Modifié par Bongota (23 Apr 2024 - 16:35)

matissed

24 Apr 2024 à 18:14

bonjour,
et merci pour votre réponse

Si j'ai bien compris , ce lien canonical ne doit concerner que les fichiers en double qui peuvent être référencé à 2 endroits différents...
alors je vous pose une question simples :

j'ai un fichier guadeloupe.htm qui est utilisé à 2 endroits différents. voilà un <head>

<head>
<title>Guadeloupe </title>
<link rel="canonical" href="https://delaplace.fr/index.htm" />
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
<meta http-equiv="Content-Language" content="fr">
<meta content=never name=expires>
<meta content="20100324" name=Date-Creation-yyyymmdd>
<meta content="20240424" name=Date-Revision-yyyymmdd>
<meta name="Description" content="Séjour Guadeloupe 2010">
<meta name="keywords" content="gwada, guadeloupe, gosier, felix, anne, francois, anse, bertrand, deshaies, habitants, traversée
delaplace">
<meta name="author" content="delaplace michel">
</head>

si je mets ce <link rel="canonical" href="https://delaplace.fr/index.htm" /> qui renvoit vers l'index principal du site, que va t'il se passer quand le robot passera dessus??

cordialement

matissed

24 Apr 2024 à 18:36

Le fait que le robot signale 471 pages avec url non canonique signifie il qu'il a trouvé 471 pages en double sur le même site
ou sur plusieurs sites différents? par exemple sur une vielle version du site encore présente présente sur des vielles pages perso free?

Si c'est le cas, il me suffit de supprimer ces pages en doubles pour solutionner le problème

Olivier C

24 Apr 2024 à 21:21

matissed a écrit :
si je mets ce <link rel="canonical" href="https://delaplace.fr/index.htm" /> qui renvoit vers l'index principal du site, que va t'il se passer quand le robot passera dessus??

Et bien cela rajouterais encore plus de confusion puisque l'index n'irais rien à voir avec ces deux pages.

Supprimer les pages redondantes serait un bon début. Avant toute chose il faut bien faire attention à la structure du site : si cette structure est correcte les URL canoniques deviennent accessoires.

parsimonhi

Modérateur

24 Apr 2024 à 22:16

Bonjour,

Les pages en double détectés par les moteurs de recherche peuvent aussi être la conséquence du fait que plusieurs url conduisent à la même page. Les pages ne sont pas en double, mais il y a deux urls ou plus de deux qui permettent d'y accéder.

Un exemple : https://monsite.fr/page1.html et https://www.monsite.fr/page1.html

Autre exemple : https://monsite.fr et https://monsite.fr/index.html

C'est courant, et c'est pourquoi les urls canoniques ne sont pas du tout accessoires ! Il faut choisir l'une des urls et la spécifier comme url canonique.

Amicalement,

matissed

25 Apr 2024 à 08:05

Bonjour,
merci à tous!
je commence à y voir plus clair!
et je sais ce qui me reste à faire...
-faire un nettoyage en profondeur de mes sites ... et je viens effectivement de trouver sur mon serveur des répertoires complets en double, duplications sans doute dues à des migrations lors de changements de fournisseur d'accès
-restructurer chacun d'entre eux en supprimant au maximum les fichiers en double
- ajouter le link canonical si besoin... mais effectivement, si ce qui précède a été bien fait, je devrais pouvoir m'en passer...
- après ces modifications, refaire tous mes sitemaps pour chacun des sites
et faire valider mes modifs sur la search console

Le retour (précoce! Smiley cligne

)de l'hiver se prête à ce genre d'occupation...

Olivier C

4 May 2024 à 18:11

Gordon25 a écrit :
Les sitemaps, surtout en Typescript peuvent t'aider !

Alors là, pour le coup, je ne vois pas le rapport.

matissed

4 May 2024 à 18:49

bonjour et merci...
J'avance LENTEMENT MAIS SUREMENT!
Mais certains fichiers qui proviennent par exemple de mise en page de photos provenant de logiciels de type Jalbum provoque systématiquement une détection d'url non canonique:
un exemple
https://delaplace.fr/guadeloupe/bananiers/help.html

cette url figure dans tous les répertoires le l'album guadeloupe.htm
https://delaplace.fr/guadeloupe/(bananiers, gosiers, francois, divers, etc...)/help.html ...

quelle est la solution?

renommer chaque fichier help dans chaque répertoire par help1.html, help2.html,,,
ou choisir le premier help.html et rajouter dans le head la balise link
<link rel="canonical" href="https://delaplace.fr/guadeloupe/bananiers/help.html" />

ou ???
merci pour votre aide

gcyrillus

Modérateur

4 May 2024 à 21:52

Bonsoir,

Si toute tes page help.html sont identiques, alors il ne t'en faut qu'une seule et la canonique vers une seule et unique URL conviendra, d'ailleurs une seule page suffit, inutile d'en produire plusieurs, autant mettre ces liens en accords et ne cibler qu'une URL. Pour le coup, je ne dit ça que pour cette page.

Autre option, ne pas autoriser l'indexation de ces pages help.html via robots.txt si elles posent problèmes.
Personnellement , je pense que si ces pages (help.html) ne sont pas indexées, cela n'a aucune importance et n'a probablement pas d'incidences sur les autres qui ont de vrai contenus , d'ailleurs, elles n'ont qu'un 'intérêt pour les visiteurs déjà sur le site, si toutefois ils en ont besoin, leur indexation n'a pas de véritable utilité. Tu peut les ignorées.

Pour les autres pages: Il peut y avoir des tas de raisons , compréhensibles ou non, selon chaque moteur de recherches. Le forum webrankInfo serait surement plus à même de t'aider pour ce qui est du référencement pur.

Cordialement

matissed

5 May 2024 à 07:21

Bonjour et merci.
Oui, pour ces urls c'est le mieux à faire
Si je veux interdire avec un robot.txt à la racine de mon site ou de mon sous-domaine, l'indexation de tous les fichiers help.html et formulaire.htm se situant dans tous les sous-repertoires de mon site ou sous-domaine

User-agent: Googlebot
Disallow: /help.html
Disallow: /formulaire. htm

Ca devrait suffire ?

gcyrillus

Modérateur

5 May 2024 à 15:37

matissed a écrit :
Bonjour et merci.
Oui, pour ces urls c'est le mieux à faire
Si je veux interdire avec un robot.txt à la racine de mon site ou de mon sous-domaine, l'indexation de tous les fichiers help.html et formulaire.htm se situant dans tous les sous-repertoires de mon site ou sous-domaine

User-agent: Googlebot
Disallow: /help.html
Disallow: /formulaire. htm

Ca devrait suffire ?

Peut-être plutôt :
Disallow: /help.html
Disallow: /formulaire. htm
Disallow: /*/help.html
Disallow: /*/formulaire. htm
pour ne pas indexer toute les URLs menant vers ces deux fichiers. à verifier.

Sinon, il y a aussi la balise : <meta name="robots" content="noindex"> que tu peut inserer dans chacun de ces fichiers.
Modifié par gcyrillus (05 May 2024 - 15:38)

matissed

7 May 2024 à 12:15

bonjour et merci pour ce plan de travail.
Je viens de finir aujourd'hui et j'ai procédé de la même manière pour chacune de mes urls https://delaplace.fr https://delaplacem.fr https://4cv.renault.delaplace.fr
https://halteaucons.delaplace.fr et https://xyz.delaplace.fr
1 suppression de tous les répertoires et fichiers .htm en double inutiles
2 nettoyage de tous les fichiers contenant des url anciennes en http:// , des locations incomplètes...
3 ajout du link canonical spécifique dans chaque fichier htm que je trouve important
4 mise en place à la racine d'un robots.txt pour exclure tous les fichiers dont l'indexation est inutile
User-agent: Googlebot
Disallow: /help.html
Disallow: /formulaire.htm
Disallow: /search.htm
Disallow: /*/help.html
Disallow: /*/formulaire.htm
Disallow: /*/search.htm

5 j'ai relancé la création des sitemaps pour les mettre à la racine de chaque site

et en 6 j'ai relancé les indexations sur ma search console pour chacun d'entre eux

il n'y a plus qu'à attendre...

matissed

14 May 2024 à 12:00

bonjour à tous,
je reviens vers vous pour ce sujet d'indexation
J'ai tout fait et c'est difficile de suivre l'évolution dans la search console.
la quantité de fichiers non indexés a fortement diminué.
J'ai retiré tous les répertoires créés par mon vieux frontpage...vti

et les fichiers qui posent problème sont des fichiers .pdf et .pps
et là je ne vois pas comment agir sur ces fichiers...
avez vous une idée accessible à un bricoleur?
merci d'avance

boteha_2

14 Jun 2024 à 20:10

Bonjour,

Il existe une méthode assez simple.

Les URL canoniques sont en .html avec une RewriteRule vers php (ou autre langage).

Toutes les pages avec URL en php indiquent dans le HEAD l'URL canonique en .hrml, même avec des différences de détails qui tiennent au message contextuel, bouton historique, etc.

Google comprend et petit à petit ces ne sont que les URL en .html qui sont indexées.

boteha_2

16 Jun 2024 à 12:09

Bonjour 2lwess

2lwess a écrit :
Hello, étant modèle j'ai eue à me confronter au caprices (hiihi!) de Google en matière de réindexation. Ayant suivi le thread, je te confirme de mettre tes
balises aria

De quelles balises aria parles-tu ?

Prévenir un modérateur

Répondre au sujet