Que signifie "non SGML character" [résolu]

Question

Pages :

mathmax

10 Sep 2005 à 22:22

(reprise du message précédent)

a écrit :
Faire très attention avec les textes récupérés d'une application Windows, pour les caractères problématiques énumérés dans http://openweb.eu.org/articles/caracteres_illegaux/

Justement. La pluspart des textes que je récupère vienne de Word et sont donc, si j'ai bien compris encodés en windows 1252.
Comment alors encoder les carctères spéciaux en ISO-8859-1 sans les faire uns à uns à la main. Existe t-il un programme qui transforme un texte "windows 1252" en un "ISO-8859-1".

pour savoir comment les coder comme il faut, cf openweb.

Je suis justement allé sur Openweb (conseil de Gilles Smiley cligne

), et je ai téléchargé un programme s'appelant Unired qui été en lien sur la page. Ce programme permet-il de faire la transcription dont j'ai besoin? Sinon, j'utilise Dreamweaver com éditeur html. Fait-il la transcription "windows 1252"/ "ISO-8859-1"?
Je connais comment on encode les caractères (là n'est pas mon problème). Le problème c'est que j'ai beaucoup de texte et que je voudrais éviter de faire toute ces correction à la main à la main...

Merci d'avance.

jpv

10 Sep 2005 à 22:41

Tu à comme astuce de faire un passage par le bloc note de windows.
Un simple copier coller suffit pour te débarasser de la plupart des encodages 1252, notamment les quotes, tiret bas, points de suspension et espace insécable.
De même une copie au format txt aura le même effet.
Il existe d'autre part, sur certains éditeurs comme l'excellentissime HtmlKit des macros ou plugins permettant de traiter des textes selon différents formats d'encodages et/ou de les remplacer par les entités html correspondantes.

Jean-pierre
Modifié par jpv (10 Sep 2005 - 22:42)

QuentinC

10 Sep 2005 à 23:00

Bobe > toute la doc que tu mets en lien ne me donne pas la raison profonde pourquoi avoir voulu réservé cette zone ? caractères de contrôle... contrôle de quoi donc ? Même Google ne sait pas...

Bobe a écrit :

Après, pour la raison logique de cette interdiction, je pense que c’est parce que ces caractères n’ont aucune utilité dans un document HTML

Ben si, justement ils ont une utilité, ils permettent d'utiliser directemetn les caractères apostrophe stylisée, tiret long, puce, guillemets saxons, etc. sans utiliser les entités.
pour une fois que Microsoft a fait une chose relativement intelligente en "bouchant les trous"...

Il faudrait qu'un expert comme Laurent ou Raphaëlle passe sur ce topic pour donner des précisions... j'aimerais bien savoir contrôle de quoi moi.
Modifié par QuentinC (10 Sep 2005 - 23:02)

djfeat

10 Sep 2005 à 23:14

Bobe donne une raison possible (et plausible) dans la suite de la phrase que tu cites :

Bobe a écrit :
et pourraient par exemple provoquer des dysfonctionnements dans un terminal si on y affichait le document en question.

EDIT : Control character sur Wikipedia (en)
Modifié par djfeat (10 Sep 2005 - 23:19)

Bobe

10 Sep 2005 à 23:18

QuentinC a écrit :
Bobe > toute la doc que tu mets en lien ne me donne pas la raison profonde pourquoi avoir voulu réservé cette zone ? caractères de contrôle... contrôle de quoi donc ? Même Google ne sait pas...

http://en.wikipedia.org/wiki/Control_characters
Voir aussi: http://en.wikipedia.org/wiki/C0_and_C1_control_codes

a écrit :
Ben si, justement ils ont une utilité, ils permettent d'utiliser directemetn les caractères apostrophe stylisée, tiret long, puce, guillemets saxons, etc. sans utiliser les entités.

Non, non et non. L’intervalle 128-159 dans tous les jeux de caractères ISO-* au moins est réservé à ces caractères de contrôle. Le caractère à la position 128 n’est pas le signe euro, sauf dans le jeu de caractères Windows-1252.
Ce jeu de caractère n’est pas normalisé et en conséquence, aucun standard n’a à en tenir compte. Ils ne tiennent compte que des jeux de caractères normalisés, lesquels réservent toujours (au moins les ISO-*) l’intervalle 128-159 pour ces caractères de contrôle.

a écrit :
pour une fois que Microsoft a fait une chose relativement intelligente en "bouchant les trous"...

Cassant ainsi la compatibilité qui prévalait jusque là...
Modifié par Bobe (10 Sep 2005 - 23:36)

mathmax

10 Sep 2005 à 23:44

Un simple copier coller suffit pour te débarasser de la plupart des encodages 1252

Merci jpv. C'est déjà ça. Mais le problème c'est que je voudrais corriger toutes les erreurs que le validateur du W3C m'affiche.

Il existe d'autre part, sur certains éditeurs comme l'excellentissime HtmlKit des macros ou plugins permettant de traiter des textes selon différents formats d'encodages et/ou de les remplacer par les entités html correspondantes.

Ou puis-je le télécharger?

Ce qui m'étonne c'est que le problème de mettre du texte encodé en ISO-8859-1 est rencontré par tous les webmasters. Comment font-ils pour rentrer du texte bien encodé? Je suppose qu'il ne modifient pas tous les caractères à la main? Smiley confus

Utilisent-ils tous HtmlKit ? Y-a t-il d'autre solutions plus courantes?

QuentinC

11 Sep 2005 à 02:21

surtout, tous les webmasters n'utilisent pas word pour créer leur site web.

Merci pour les articles de wiki ! Si j'ai bien compris, c'est des caractères spécieaux pour les terminaux UNIX... merci, j'ai eu la réponse que je cherchais à connaître.

Laurent Denis

11 Sep 2005 à 06:46

mathmax a écrit :

Il existe d'autre part, sur certains éditeurs comme l'excellentissime HtmlKit des macros ou plugins permettant de traiter des textes selon différents formats d'encodages et/ou de les remplacer par les entités html correspondantes.

Ou puis-je le télécharger?

http://chami.com/

voir également http://www.webmaster-hub.com/index.php?showtopic=3179&view=findpost&p=25172

mathmax

11 Sep 2005 à 10:25

a écrit :
surtout, tous les webmasters n'utilisent pas word pour créer leur site web.

Le problème c'est que ce n'est pas moi qui tape tes textes et ils sont fait avec word.

Donc si j'ai bien compris HTMLkit est la référence pour traduire d'un jeu de carctère à un autre.
Je l'ai téléchargé. Il y a l'Unicode Pad qui encode en UTF8 mais à priori pas en ISO-8859-1.
J'ai aussi télécharger ce plugin:

a écrit :
http://www.chami.com/html-kit/plugins/info/extchars/

Mais je ne sais pas comment l'intégrer à HTMLkit. Smiley sweatdrop

Permet-il d'encoder en ISO-8859-1?

Cependant, j'aimerais quand même savoir si Dreamweaver ne peut pas faire la même chose. Si quelqu'un sait comment faire avec Dreamweaver, une explication m'intéresserait...

En fait laquelle des deux normes faut-il le mieux utiliser pour du texte français?

Merci Smiley cligne

Modifié par mathmax (11 Sep 2005 - 12:24)

Pages :

Sujet clos

Sémantique web et HTML

Que signifie "non SGML character" [résolu]