Voilà, j'ai quelques petites questions, notamment suite au billet de Mezzoblue.

Unicode contient tous les caractères possibles et imaginables, etc. Mais où peut on en avoir la liste "officielle" qui je suppose s'agrandi souvent ?

Quel est le rapport entre unicode et l'encodage utilisé utf 8 ou utf 16 ? tous les caractères unicodes sont accessible via n'importe quel encodage ?

En html, quelque soit l'encodage, on peut accéder à tous les caractères via une référence (hexadécimale ou décimale) de caractère ? (bon ça j'en suis quasi certain...)

Ensuite il faut que la police utilisée contiennent bien le caractère souhaité ? existe t il une police "complète" ?

La table de caractère de windows , ne permet rien de plus que de voir les diférents caractères que contient une police ?

Si vous pouvez m'éclairer ce serait super Smiley smile
Cedric a écrit :

Unicode contient tous les caractères possibles et imaginables, etc. Mais où peut on en avoir la liste "officielle" qui je suppose s'agrandi souvent ?


http://www.alanwood.net/unicode/ est un bon point de départ, plus maniable que le standard lui-même Smiley cligne

Cedric a écrit :

Quel est le rapport entre unicode et l'encodage utilisé utf 8 ou utf 16 ? tous les caractères unicodes sont accessible via n'importe quel encodage ?

Non, pas au sens de caractères littéraux. Voir http://openweb.eu.org/articles/jeux_caracteres/ , les billets de l'auteur de cet article sur son blog, et les billets de Karl Dubost sur "charset et character encoding", dont http://www.la-grange.net/2002/10/23.html

Il y a eu aussi quelques discussions assez nourries dans ce forum.

Cedric a écrit :

En html, quelque soit l'encodage, on peut accéder à tous les caractères via une référence (hexadécimale ou décimale) de caractère ? (bon ça j'en suis quasi certain...)


Oui

Cedric a écrit :

Ensuite il faut que la police utilisée contiennent bien le caractère souhaité ? existe t il une police "complète" ?


Une police de plusieurs dizaines de milliers de caractères ? Non, pas vraiment Smiley cligne

Cedric a écrit :

La table de caractère de windows , ne permet rien de plus que de voir les diférents caractères que contient une police ?


Elle peut aussi copier coller le caractère littéral, ce qui n'est pas d'une utilité flagrante en pratique en HTML...
Modifié par Laurent Denis (27 Jul 2005 - 17:45)
Ok merci Smiley smile

Donc en gros :

- unicode est juste une liste

- l'encodage de caractère décrit de quelle façon on peut accéder à un caractère de la liste (de façon littérale)

- les références de caractère permettent d'accéder à un caractère de la liste sous forme de référence

C'est bien ça ?

Les références de caractères, c'est bien la spec xml qui défini qu'elle sont en rapport avec unicode ?

Au fait, c'est quel "groupe" qui s'occupe d'unicode ?

Je me penche sur allanwood Smiley smile
J'aurais du avoir le réflexe de directement regarder sur unicode.qqchose Smiley rolleyes

Mais ce que je ne comprend pas c'est qu'ils apellent ça un "encodage de caractère" :

a écrit :
Before Unicode was invented, there were hundreds of different encoding systems for assigning these numbers. No single encoding could contain enough characters: for example, the European Union alone requires several different encodings to cover all its languages. Even for a single language like English no single encoding was adequate for all the letters, punctuation, and technical symbols in common use.


Avec quel "encodage" de caractère peut on encoder de l'unicode au fait ?

Juste utf 8 ou 16 ?
Bon, je développe.

On n'encode pas de l'unicode.

On utilise un jeu de caractères (Character Encoding, charset), c'est à dire l'un des fameux iso-8859-1, utf-8 et autres ascii-us et windows-1252, pour viser une partie de la totalité des caractères disponibles dans Unicode. Cette partie peut être très réduite (us-ascii) ou très étendue (utf-8, utf-16, utf-32). Dès lors, pour les caractères concernés, on peut les écrire littéralement avec l'éditeur de texte qui va bien.

Pour les caractères qui n'entrent pas dans le jeu choisi, on peut :
- utiliser une référence d'entité caractère définie par le format HTML ou XHTML : ce sont les é et autres. Par l'intermédiaire de sa définition en HTML (voir la DTD), cette entité renvoie à la position du caractère dans la table Unicode.
- utiliser une référence numérique, c'est à dire un é qui vise directement le caractère dans la table Unicode.

le tout repose sur le fait que HTML s'appuie sur la table Unicode (ISO10646) pour définir les caractères.
Modifié par Laurent Denis (27 Jul 2005 - 23:09)
Ok j'y vois plus clair Smiley smile

J'ai lu ton lien aussi.

Donc si j'ai bien compris, Unicode est un "character set" et utf 8 et autre sont des "character encoding"

Mais quels sont d'autre character set ?

ASCII en est un non ?
Pourquoi je me suis lancé là dedans (y voir plus clair dans l'encodage de caractère) ce soir alors que j'ai 200 autres trucs à faire Smiley ohwell

Bon je vais lire en détail ton long bidulle Smiley langue

Autre question :

Chaque character encoding est lié à un character set donc ?

Par exemple, UTF 8 permet d'utiliser une partie d'unicode.

Mais donc pour chaque le character set xy , il existe forcément des character encoding qui sont différent de ceux utilisés pour le character set yz ?
Cedric a écrit :
Pourquoi je me suis lancé là dedans (y voir plus clair dans l'encodage de caractère) ce soir alors que j'ai 200 autres trucs à faire Smiley ohwell


Bah... tu dois avoir des goûts un peu pervers, je suppose Smiley cligne

Cedric a écrit :

Chaque character encoding est lié à un character set donc ?

Par exemple, UTF 8 permet d'utiliser une partie d'unicode.

Mais donc pour chaque le character set xy , il existe forcément des character encoding qui sont différent de ceux utilisés pour le character set yz ?


Argh. Non. Retenons qu'Unicode contient potentiellement tous les caractères exprimables, et que chaque charset est une "fenêtre" plus ou moins grande sur celui-ci.
ça doit être vrai Smiley langue

Plus je crois comprendre mieux je m'en sors...

Si je comprends ce que tu dis, il n'y a qu'un et un seul character set .. ? mais ton lien dit le contraire Smiley sweatdrop
Disons en effet qu'il n'y a qu'un seul character set : Unicode a été conçu pour remplacer les divers systèmes antérieurs, dont ASCII, ANSI (l'iso-latin-1), etc.
et maintenant qu'unicode est là, sont apparu les character encoding (ansi, us-ascii) etc qui ne font référence qu'à une sous partie d'unicode ?

et en plus de ça on a les charset (= character encoding) "globaux" tel que utf 8 etc ?

Dis moi que j'ai pas entièrement faux Smiley langue
a écrit :
Une police de plusieurs dizaines de milliers de caractères ? Non, pas vraiment Smiley cligne


Il y a Arial Unicode, de Monotype (livrée par Microsoft avec Office). Dans sa version 1.01 (septembre 2002, dernière version publique), elle a 50 377 glyphes, ce qui doit couvrir Unicode 2.0. Mais bon, on est maintenant en Unicode 4.1 (plus de 100 000 caractères), et je me rappelle avoir lu Jelle Bosma de Monotype disant qu'ils ne recommenceront pas un tel monstre...