5568 sujets

Sémantique web et HTML

Salut tout le monde.
Impossible de trouver la moindre ressource sur le net concernant l'usage sémantique du cadratin face au célébrissime demi-cadratin accessible d'une touche.
Et puis il me semble que la table ASCII met dans le même panier le "-" du pavé numérique et le "-" du clavier numérique qui se trouve sous le chiffre 6.
Quand est-il des robots?
Comment interprètent-ils l'usage du "moins" ou du demi-cadratin du '6'.
Et est-il pertinent d’écrire en dur dans son code '&mdash' ou '&#x2010' ou '&ndash'?

Merci pour vos réponses
Si tu es en UTF-8, tu peux taper le caractère directement :

- : trait d'union.
– : tiret sur demi-cadratin (alt 0150 sur windows, alt - sur mac).
— : tiret sur cadration (alt 0151 sur windows, alt majuscule - sur mac).

Pourquoi tu parles des robots? Tu veux dire les lecteurs d'écrans non?
Si tu parles typographie, on utilise le tiret principalement pour introduire les paroles d'un dialogue ou les incises.
Salut, merci pour ta réponse rapide.
Quand je parle robot, j'entends par là les bots de google qui indexent les sites web.
Je pense que la plupart des webdesigners utilisent que les 2 '-' disponilbles sur un clavier, l'un pour une soustraction, l'autre pour le trait d'union.
Mais il y a une différence sémantique entre le quart-cadratin , le demi-cadratin, le cadratin et le trait d'union...
exemple, Loire-Atlantique=
LoiremoinsAtlantique

trait d'union "hé, viens par ici René!"
demi-cadratin "hé, viens par ici René!" est plus approprié...
Et même problématique que mes points de suspensions! (…)
Trois petits points alignés != points de suspensions

Alors qu'en pensent les moteurs de recherche?
mdash lave plus blanc ! Smiley biggrin

Patidou
a écrit :
Si tu parles typographie, on utilise le tiret principalement pour introduire les paroles d'un dialogue ou les incises.

... le tiret cadratin ou demi-cadratin.

Pour l'usage de l'un ou de l'autre, d'après ce que j'ai pu en voir, ça relève du choix de la personne qui compose le texte : certains trouvent le tiret cadratin trop long.

Il existe bien un signe "moins" distinct du tiret ; sous Windows, il est disponible dans l'utilitaire Table des caractères (voir ci-dessous), et sous Mac OS, dans l'utilitaire Caractères (voir ci-dessous).

lefelinherbivore
a écrit :
Alors qu'en pensent les moteurs de recherche?

Personnellement (c'est juste mon avis, hein), je ne pense pas que les moteurs de recherche se cassent la tête avec ça.

Sinon, pour avoir directement tous ces caractères, et en fait tous les caractères d'une police, sous Windows, il y a l'utilitaire Table des caractères. Il n'est plus présent dans le menu Démarrer, mais tu peux y accéder en lançant une recherche sur charmap.exe, et une fois le fichier trouvé, créer un raccourci pour y accéder par la suite.

Il existe un utilitaire semblable sous Mac (menu Aide, taper caractères dans le champ de recherche).

Bonne continuation.
Modifié par thierry (04 Dec 2012 - 15:09)
"Loire-Atlantique" = trait d'union

"par-ici" = trait d'union.

Sans discussions, autrement c'est une faute. Pour le signe moins, il y a un signe adapté pour ça mais là c'est un peu capillotracté. Smiley cligne

Le signe normal pour les points de suspensions est le "…" (alt 0133 sur win, alt . sur mac). Maintenant que tu utilises 3 points consécutifs ou ce caractère, je crois que les moteurs s'en balancent.
patidou a écrit :
- : trait d'union.
– : tiret sur demi-cadratin (alt 0150 sur windows, alt - sur mac).
— : tiret sur cadration (alt 0151 sur windows, alt majuscule - sur mac).


C'est l'inverse:

– : tiret sur demi-cadratin (alt majuscule - sur mac).
— : tiret sur cadration (alt - sur mac)
Smiley smile
Merci pour la rectification, j'étais sur le PC du boulot et j'ai hésité pour le raccourci Mac… Smiley cligne
A noter que les tirets unicode en-dehors de celui par défaut (ASCII #39) posent souvent des problèmes graves aux lecteurs d'écran qui ne les reconnaissent pas. Je serais donc d'avis de ne pas se prendre la tête, et de ne pas les utiliser.

Par exemple pour le signe négatif, il est régulièrement ignoré lorsqu'il est sous sa forme unicode. Le lecteur d'écran n'en tient tout simplement pas compte et lit un nombre positif.

Ainsi :
"-9" donne bien "moins neuf"
"–9" donne "tiret court neuf", "tiret demi cadratin 9" ou "symbole neuf" dans le meilleur des cas selon les versions, et simplement "neuf" dans le pire des cas. Jaws+IE, la configuration la plus courante, est dans ce dernier cas.

En ce qui concerne le trait d'union virtuel, comme dans le premier exemple, il est parfois lu comme "trait d'union virtuel", ou parfois ignoré selon l'environnement et la configuration. Quand il est lu, il rend la lecture très difficile , p.ex. "IN-UT-ILE" peut être lu "In trait d'union virtuel ut trait d'union virtuel ile". Quand il est ignoré, il ne l'est pas de la bonne façon (il est quand même interprété comme séparateur de mot), car il rend quand même les mots inintelligibles ou en change la prononciation naturelle. P.ex. "IN-TEL-LI-GENT" peut être lu "Inne telle ije ant" (j'ai changé l'orthographe pour que vous compreniez bien).
Donc, quelque soit l'interprétation faite par les lecteurs d'écran, ce n'est pas satisfaisant, et il vaut donc mieux tout simplement ne pas les utiliser.

Je n'ai pas de contre-indication pour le tiret long utilisé pour les dialogues ou les incises. Il est aussi ignoré la plupart du temps, mais ce n'est pas trop grave.
Modifié par QuentinC (06 Dec 2012 - 06:15)
Je crois que je ne vais pas me prendre la tête en effet.
UTF8 prend en compte plus de 1 millions de caractères et les bots étant permissifs, autant y aller franchement
Merci pour votre contribution et à bientôt.
Patidou a écrit :
Le signe normal pour les points de suspensions est le "…" (alt 0133 sur win, alt . sur mac). Maintenant que tu utilises 3 points consécutifs ou ce caractère, je crois que les moteurs s'en balancent.


Dans « Unicode 5.0 en pratique » Patrick Andries semble déconseiller l'utilisation du caractère points de suspension U+2026.
Page 151 :
« La manière d'afficher les points de suspension peut varier en fonction de la tradition typographique, les points de constitutifs seront ainsi parfois plus rapprochés dans certaines traditions que d'autres. Le glyphe utilisé pour U+2026 points de suspension dans les tableaux ISO/Unicode a un écartement moyen. En typographie française les points de suspension ne sont pas plus séparés que trois points normaux successifs : « ... ». Certaines polices (Times New Roman) adoptent une convention anglo-saxonne qui consiste à espacer ces points : « … », MS Word semble l'imposer même en français en remplaçant trois points successifs par un U+2026 qui dans la plupart des polices est trop espacé pour la tradition française. »

Par ailleurs U+2026 une fois codé en UTF-8 produit la séquence de trois octets : E2 80 A6 car le bloc Unicode « Ponctuation générale » est situé assez loin, il est juste un peu avant le bloc « Symboles de devises » où l'on retrouve U+20AC le symbole de l'Euro € (UTF-8 : E2 82 AC).
Donc que l'on utilise U+2026 ou trois fois . dans un fichier enregistré en UTF-8 cela prend trois octets dans un cas ce sont — E2 80 A6 — et dans l'autre — 2E 2E 2E —, mais si l'on compresse ce fichier avec Gzip/Deflate (comme tout bon fichier HTML ou texte devrait l'être lors d'un transfert) la séquence E2 80 A6 sera particulièrement mal digérée car très exotique.
En effet il y peu de chances qu'individuellement les octets E2, 80 et A6 figurent déjà dans un fichier contenant un mélange d'anglais et de français.

E2 80 apparait pour :
U+2013 (E2 80 93) –
U+2014 (E2 80 94) —
U+2020 (E2 80 A0) †
U+2030 (E2 80 B0) ‰
U+2039 (E2 80 B9) ‹
U+203A (E2 80 BA) ›

80 est également utilisé pour :
U+00C0 (C3 80) À

A6 est également utilisé pour :
U+00A6 (C2 A6) ¦
U+00E6 (C3 A6) æ

Un fichier contenant — E2 80 A6 — à la place de — 2E 2E 2E — à donc toutes les chances d'être plus gros une fois compressé.
En revanche sur Twitter U+2026 compte pour un seul caractère.
Modifié par fretz (10 Dec 2012 - 17:54)