5546 sujets

Sémantique web et HTML

Bonjour

J'aimerais avoir votre avis sur la question suivante:

Les balises <h1>, <h2> etc sont utilisées par les "renifleurs" pour donner plus de poids à leur contenu dans l'indexation, ce qui est légitime car ce qu'il y a dans un titre est sensé avoir plus d'importance que ce texte qu'il accompagne.
Si le titre du document est
<h1>La culture des navets au Portugal</h1>
il doit avoir plus de poids dans une recherche sur "navet Portugal" qu'un autre document dont le titre serait
<h1>La production cinématographique au Portugal</h1>
et où on trouverait le mot "navet" quelque part dans le texte.

Mais il y a aussi des sous titres qui n'ont pas en soi de signification sémantique, mais qui structurent la lecture du document par un être humain, par exemple
<h3>Première partie</h3>


Quel serait l'inconvénient ou l'avantage de remplacer ces balise magiques <hi> par quelque chose du genre
<div class="niveau3">Première partie</div>


Ce n'est pas vraiment que j'ai envie de faire cela, mais c'est venu dans une conversation et je ne sais pas très bien ce qu'il convient d'en penser.

Merci de votre contribution
Modifié par PapyJP (11 Aug 2015 - 21:44)
Bonsoir Smiley smile

Google ou pas, la bonne pratique c'est d'avoir une hiérarchie de titres correcte. Donc tel quel, ton exemple n'est pas terrible-terrible (j'ai bien compris qu'il n'est que théorique pour la question) Smiley cligne D'ailleurs si on poussait le truc, on irait carrément faire du :

<h1>Culture Navet Portugal</h1>
<!-- efficacité maximum pour le h1, on vire tous les mots de liaison ! -->

<h2>Navts Nvet Navaÿ kultur Portugalle</h2>
<!-- yes, preum's sur les fautes d'orthographe en plus ! -->

<h2>Un navet, deux navets, portugal portugal portugais portugaise</h2>
<!-- localisation et gentilé au top ! -->

<h3>culture navet portugal</h3>
<h3>navet culture portugal</h3>
<h3>navet portugal culture</h3>
<!-- et dans tous les sens au cas où !11!!!! -->

Bon j'arrête là mes sottises… tu vois où je veux en venir Smiley smile
Faire de l'optimisation pour le référencement, c'est vraiment pas contradictoire avec une bonne sémantique juste et un respect des bonnes pratiques. D'ailleurs, faut garder à l'esprit qu'une page idéale pour le SEO, c'est quand même une page encyclopédique (regarde le référencement des articles de Wikipédia par exemple, c'est un bon exemple…) Smiley cligne
Modifié par audrasjb (11 Aug 2015 - 19:26)
Pour prendre l'exemple de la page "Navet" sur Wikipédia :

<h1>Navet</h1>
<h2>1 Principales variétés cultivées</h2>
<h3>1.1 Variétés non hybrides</h3>
<h3>1.2 Variétés hybrides</h3>
<h2>2 Utilisation</h2>
<h2>3 Littérature et culture populaire</h2>
<h2>4 Notes et références</h2>
<h2>5 Voir aussi</h2>
<h2>6 Liens externes</h2>

"Voir aussi" et "Liens externes" ou pire, "Littérature et culture populaire", c'est pas exceptionnellement optimisé SEO, pourtant la page est très bien placée tout de même Smiley smile
Merci de ton avis qui rejoint le mien: mettre un <h2> sur un texte bateau ne doit sans doute pas etre un handicap pour le référencement.
J'ai constaté que Google mettait cependant en avant des mots très secondaires dans ses statistiques, mais il paraît que ça n'a pas d'influence sur le référencement. Ce qui me fais cependant me demander pourquoi ils sortent cette statistique...

Mais peut être d'autres personnes auront elles un avis différent ?
Modifié par PapyJP (11 Aug 2015 - 22:05)
Simplement pour que vous sachiez d'où vient cette histoire de navets, à la fin des années 1960 j'étais élève dans une école d'ingénieurs et c'était la première fois qu'il y avait une optio informatique sur une année scolaire entière.
On faisait venir comme professeurs ou conférenciers des gens qui travaillaient dans le domaine, en particulier au centre de recherche d'IBM à La Gaude, près de Nice.
Je me souviens que le responsable du labo "documentation automatique" nous avait fait un topo en expliquant que son problème était de trouver par programme qu'un document sur "les navets au Portugal" devait être retrouvé par une question sur "l'agriculture en Europe". Inutile de dire qu'à l'époque on se contentait d'enregistrer le titre, et les fameux "mots clés" qui aujourd'hui ne sont même plus pris en compte par Google.
C'est à se souvenir d'histoires de ce genre qu'on voit qu'on vieillit.......
Bonjour,

Je suis d'avis que la bonne solution est de mettre dans le même titre et l'intitulé effectif, et les mots de liaison ou indication de la hiérarchie.

Concrètement :

<h1>Partie I: la reproduction des abeilles à 3000m d'altitude</h1>
<h2>Chapitre 1: rien à voir avec la choucroute</h2>
<h2>Chapitre 2: J'aime le PHP, le Java et le C++</h2>
<h3>Section 1: Le C++</h3>
<h3>Section 2: Le Java</h3>
<h3>Section 3: le PHP</h3>
<h2>Chapitre 3: le JavaScript est capricieux</h2>
<h1>Partie II: Désolé, je ne suis pas inspiré</h1>
<h2>Chapitre 4: il fait chaud dehors</h2>


Google n'est pas un crétin, il sait très bien que les mots genre chapitre, partie, section, etc. n'ont aucune valeur sémantique pour la comprhéension générale du contenu dans ce contexte. Ils sont probablement traités à peu de chose près comme des mots vides genre un, une, des, le, la, les, etc. dans le cas qui nous occupe ici. Pareil si vous numérotez 1, 1.1, 1.2, 1.3, 2, 2.1, etc. ce qui va très bien aussi (c'est juste une question de style).

Je ne suis pas un référenceur pro mais je crois que le meilleur moyen de faire du bon référencement, c'est avant tout d'écrire les choses comme elles viennent naturellement et de suivre les bonnes pratiques de HTML sémantique. Rien de plus. Essayer de tricher, ou simplement s'écarter même un tout petit peu de ce que fait la masse sera remarqué tôt ou tard par les analyseurs statistiques et contré rapidement. OU sinon il reste toujours l'option de payer pour passer en tête de liste.

De nouveau, regardez wikipédia: ils ne font rien de spécial, et ils n'ont jamais rien fait de spécial pour le référencement. Ils se sont juste contentés d'écrire des articles de qualité sans se poser plus de questions. ET ils sont devenus premier sans jamais rien payer et sans jamais rien faire d'autre.
Modifié par QuentinC (12 Aug 2015 - 08:49)
QuentinC a raison Smiley smile

Il faut savoir que Google recommande de ne surtout pas chercher à optimiser son code, mais simplement de l’écrire bien (valide, sémantique, etc.) et de produire du contenu pertinent.

Bref, comme pour l’accessibilité, si l’utilisateur trouve du contenu riche, ça plaire à Google.

Par contre, dans tous les exemples indiquant « chapitre X » (par ex.), ça n’a à mon avis rien à faire dans le HTML et profiterait d’être géré via CSS (un petit ::before avec un compteur). Ce n’est qu’un avis, mais ce contenu alourdit inutilement la hiérarchie des titres.
a écrit :
Par contre, dans tous les exemples indiquant « chapitre X » (par ex.), ça n’a à mon avis rien à faire dans le HTML et profiterait d’être géré via CSS (un petit ::before avec un compteur). Ce n’est qu’un avis, mais ce contenu alourdit inutilement la hiérarchie des titres.


J'aurais presque pu être d'accord avec toi, mais non.

La raison basique, c'est que le contenu généré par CSS n'est pas restitué par toutes les aides techniques, et leur non-restitution n'est pas un bug ni un défaut mais un point de vue parfaitement défendable.

Mon point de vue plus général sur la question, c'est qu'un élément aussi important que la numérotation ne devrait pas se trouver en CSS mais bien dans le contenu. Le CSS s'occupe de ce qui est présentation uniquement, et la présentation est fondamentalement facultative: on doit être en mesure de lire et comprendre un contenu même avec une présentation par défaut sans CSS (oui je tacle aussi les gens qui mettent du CSS background au lieu de <img/> pour afficher des images relatives au contenu lu)

Il se trouve que, d'après moi, la numérotation n'est de loin pas qu'une simple question de présentation. Si on retire ou change la numérotation des titres dans un rapport, une doc technique ou un document un temps soit peu structuré, on ne s'y retrouve plus: il est impossible ou en tout cas difficile d'atteindre rapidement ni de citer ou de lier un passage donné. C'est quelque chose d'absolument primordial !

Dans le même ordre d'idée, list-style-type pour indiquer si on veut des puces rondes ou carrées, c'est de la présentation; mais list-style-type pour indiquer si on veut numéroter 1, 2, 3 ou A, B, C, ce n'est pas de la présentation et ça n'aurait pas dû se trouver là; d'ailleurs je déplore la disparition des attributs start et type pour <ol>, qui eux sont bien à leur place.

Je sais, je dois être le seul fou à avoir un point de vue pareil; mais voilà. Donc d'après moi les compteurs CSS sont une hérésie qui n'aurait jamais dû exister.
QuentinC a écrit :

Je sais, je dois être le seul fou à avoir un point de vue pareil; mais voilà. Donc d'après moi les compteurs CSS sont une hérésie qui n'aurait jamais dû exister.

Je sais bien que l'avis d'un vieux c... comme moi n’intéresse guère les gens, mais je suis tout à fait d'accord avec toi.
C’est avant une question conceptuelle Smiley smile

Personnellement du contenu généré non restitué n’est pas un problème dans de nombreux cas, par exemple du contenu extrêmement redondant et sans valeur ajoutée. Concernant les compteurs, ils peuvent faire partie de la présentation et des cas d’utilisation existent bel et bien. Ça n’a certes pas beaucoup d’utilité en soi, mais dans a11y.css par exemple ils aident le développeur à connaître le nombre d’erreurs relevées. Ça n’est pas du contenu accessible, ce n’est qu’un enrichissement intéressant. En revanche la spécification des compteurs en fait effectivement quelque chose d’inutile la plupart du temps Smiley bawling

QuentinC a écrit :

Il se trouve que, d'après moi, la numérotation n'est de loin pas qu'une simple question de présentation. Si on retire ou change la numérotation des titres dans un rapport, une doc technique ou un document un temps soit peu structuré, on ne s'y retrouve plus: il est impossible ou en tout cas difficile d'atteindre rapidement ni de citer ou de lier un passage donné. C'est quelque chose d'absolument primordial !


D’après moi, le numéro en début de titre relève de la présentation, voilà pourquoi je proposais les compteurs et pseudos-éléments. C’est seulement là que nos avis divergent Smiley smile

Atteindre rapidement, citer ou lier un passage donné : c’est la base même de l’hypertexte ! On mets un identifiant sur la balise titre, et une ancre : le tour est joué. La page est parfaitement structurée grâce aux niveaux de titre, n’importe quel outil extrayant le plan d’un document s’en sort à la perfection.

C’est l’essence même du HTML que de se passer d’une numérotation dans un document.

Mais comme vous, ce n’est que mon avis Smiley smile
PapyJP a écrit :
(...) Les balises <h1>, <h2> etc sont utilisées par les "renifleurs" pour donner plus de poids à leur contenu dans l'indexation, ce qui est légitime car ce qu'il y a dans un titre est sensé avoir plus d'importance que ce texte qu'il accompagne.
Si le titre du document est
<h1>La culture des navets au Portugal</h1>
il doit avoir plus de poids dans une recherche sur "navet Portugal" qu'un autre document dont le titre serait
<h1>La production cinématographique au Portugal</h1>
et où on trouverait le mot "navet" quelque part dans le texte.


Salut PapyJp, il est probable (même certain) que google, bing, yahoo considèrent d'abord le nom de domaine
portugal.com
puis le nom de la page
portugal_culture_navet.html
puis la 'meta description'
<meta name="description" content="La culture du navet au Portugal est d'abord traditionnelle avec des variétés natives ou endémiques, mais elle considère aujourd'hui quelques variétés hybrides." />
puis le titre de la page
<title>La culture du navet au Portugal</title>
pour pouvoir disposer enfin de <h1>, <h2> ... et de leur intitulé, et de leur contenu.

Ton topique porte sur l'importance de <h1>, <h2> face aux 'bots', or cette importance est en réalité 'subsidiaire', au regard de ce qu'est la haute hiérarchie des indications que nous devons délivrer aux 'bots' ; et cette hiérarchie définit une filiation dans l'importance : de la plus grande importance à la plus petite, ou autrement dit que cette importance aille de la plus globale à la plus affine quand les 'bots' pénètrent (de niveau à niveau) notre site. S'il y avait défaut ou rupture de filiation, les 'bots' craindraient de s'égarer ... en proposant un résultat de requête vague ou erroné : ils le relégueront alors loin loin loin dans la xè page de résultats pour un résultat 'sans suite d'aucun niveau d'importance' : juste un mot abandonné dans l'océan !

Ainsi, sur mon exemple si nous lancions une requête google sur 3 mots : 'portugal culture navet', le site 'portugal.com' aura toutes les chances de figurer dans le 'top ten' des résultats où la page 'portugal_culture_navet.html' (navet.html conviendrait probablement, aussi) sera proposée de façon absolument pertinente. CQFD

En outre nous savons que subsiste malheureusement, chez beaucoup de 'surfeurs du web' qui mènent une requête, de la maladresse ou de l'incohérence dans la hiérarchie et la signification de leurs 'mots clefs'. Nous ne pourrons y remédier (ou au mieux 'prévenir') que par le respect scrupuleux de notre propre hiérarchie des indications que nous délivrons aux 'bots'.

Cela signifie en corollaire qu'il est préférable (pour un même domaine.com) de créer des pages.html bien distinctes où un seul sujet sera traité : ici celui du navet ! et rien que du navet ... sans y parler également de la vigne par exemple ou de l'industrie navale ou de la pêche au cabillaud qui devraient faire l'objet d'autant de pages.html distinctes. D'autres visiteurs pourraient alors s'enquérir d'autres recherches : 'portugal industrie navale' ... et obtenir une égale pertinence dans le 'top ten' grâce à la même et haute hiérarchie respectée ! (avec au 2è rang (ou 2è niveau d'importance) le nom de la page* 'portugal_industrie_navale.html') !

* google ne considère que les séparateurs bas _

Cette suite d'indications est donc logique et déterminante :
https://static.googleusercontent.com/media/www.google.fr/fr/fr/intl/fr/webmasters/docs/search-engine-optimization-starter-guide-fr.pdf
Modifié par pictural (02 Sep 2015 - 16:06)
Merci de cet avis, qui rejoint ce que je pensais, mais de temps en temps il n'est pas mauvais de s'assurer qu'on ne fait pas fausse route!
Bonjour à tous,
Il y a pas mal de trucs un peu fumeux voire carrément faux ci-dessus…
pictural a écrit :
* google ne considère que les séparateurs bas _

Je ne sais pas d'où tu sors ça, mais c'est n'importe quoi Smiley rolleyes
google.com a écrit :
We recommend that you use hyphens (-) instead of underscores (_) in your URLs.

(et ça date pas d'hier)
> source
Cela méritait effectivement d'être rectifié :
google.com a écrit :
We recommend that you use hyphens (-) instead of underscores (_) in your URLs.

Et pour davantage de compréhension :
http://blog.woorank.com/2013/04/underscores-in-urls-why-are-they-not-recommended/

Cependant mes propres urls étant authentiquement composées d'hyphens (en guise de vrais séparateurs de mots), je m'incline humblement devant vous d'avoir misérablement buggé sur la chose ...

Voilà voilà !

Quant au reste, c'est plutôt bien éprouvé. Sinon apportez-en la démonstration.
Je me permets de réagir à la'rticle posté sur un point particulier: on ne peut pas avoir un nom de domaine avec des underscores, ça n'existe pas; ou du moins pas avec les extensions classiques .net/.org/.com/suffixes nationaux.

ON ne s'en rend compte vraiment que quand on essaye d'en réserver un... mais c'est toujours utile à savoir.
Bonjour à tous Smiley smile
Quentin : oui, évidemment ! On parle plutôt des noms de répertoires et de fichiers Smiley biggrin
pictural a écrit :
Quant au reste, c'est plutôt bien éprouvé. Sinon apportez-en la démonstration.

Cela s'appelle un renversement de la charge de la preuve. Je te rappelle que c'est toi qui affirme plein de pseudos-conseils SEO : c'est à toi de prouver que ceux-ci sont réellement efficaces. Je te renvoie vers le fameux principe de la théière de Russel (ou de la licorne rose invisible).

Mais bon, ce n'est pas très compliqué de montrer qu'il y a plein de choses mal comprises ou carrément fausses dans ton propos.
Par exemple, ce qui suit est complètement erroné :
pictural a écrit :
Salut PapyJp, il est probable (même certain) que google, bing, yahoo considèrent d'abord
– le nom de domaine (…)
– puis le nom de la page (…)
– puis la 'meta description' (…)

Absolument faux ! La meta description n'est pas utilisée pour le positionnement d'une page dans l'index des moteurs de recherche. Elle n'a qu'un objectif (néanmoins intéressant) d'agrémenter les SERPs d'une description permettant entre autre de contextualiser la page référencée. C'est déjà pas mal, mais rien à voir avec le référencement donc.

Par ailleurs, la hiérarchie des actions à faire pour référencer une page que tu as présentée est complètement fantaisiste. Dire que les moteurs «considèrent d'abord le nom de domaine», c'est vraiment n'y rien connaitre en référencement… et ne pas être très observateur des pages de résultats de recherche (Wikipédia souvent en tête et la plupart du temps sur le podium avec un NDD qui ne contient jamais la requête). C'est le CONTENU qui est le plus important, boudiou.

Il faut que tu te rende compte que le fait d'affirmer des choses fausses avec autant d'appui comme tu le fais est réellement préjudiciable pour les lecteurs du fil de discussion parce que cela tend à les rendre vraies. Quand tu n'est pas sûr de toi, merci d'éviter d'utiliser les termes "probable", "certain", "éprouvé", etc.
Modifié par audrasjb (05 Sep 2015 - 12:12)
a écrit :
Quentin : oui, évidemment ! On parle plutôt des noms de répertoires et de fichiers


Ici oui, mais dans l'article mis en lien, c'est un peu ambigü. Son auteur n'a pas l'air de le savoir.

JE dois dire pour moi que c'est seulement en essayant d'en réserver un et après un peu de réflexion que j'ai constaté l'évidence... je veux réserver mon_site.com, tiens, ça marche pas et le message d'erreur est très laconique mais il n'est pas pris... puis tiens, au fait, je ne me rappelle pas connaître un site dont le domaine contient des underscores... je suis un génie, je suis le premier à avoir pensé à un truc aussi con... ah bah ça doit être parce que ce n'est pas possible, tout simplement.
Modifié par QuentinC (06 Sep 2015 - 09:30)