UTF-16

Question

Calimo

19 Feb 2005 à 17:35

Je suis devant un message de tidy (que je compte traduire, le message pas tidy, dans le cadre d'une extension pour Firefox, HTML Validator pour ne pas la citer), et il y a le message suivant :

a écrit :
invalid UTF-16 surrogate pair (char. code ...)

Euh... ça veut dire quoi ? Pour moi c'est du chinois Smiley confused

Merci d'avance,
Calimo Smiley cligne

ThomasLinard

1 Mar 2005 à 16:26

Avec un codage 16 bits, on n'a que 65 536 possibilités, alors qu'Unicode 4 approche les 100 000 caractères. On utilise donc deux valeurs 16 bits pour représenter un seul caractère, ce qu'on appelle une « surrogate pair ».

Un peu de littérature :

Le site de Microsoft

Lexique franco-anglais pour les traductions des recommandations du W3C
(il parle de « paire suppléante »)

Calimo

6 Mar 2005 à 17:55

Donc c'est presque un peu du utf-32 si l'on veut ?

En tous cas merci beaucoup pour la traduction Smiley cligne

FlorentG

6 Mar 2005 à 19:29

ThomasLinard a écrit :
Avec un codage 16 bits, on n'a que 65 536 possibilités, alors qu'Unicode 4 approche les 100 000 caractères. On utilise donc deux valeurs 16 bits pour représenter un seul caractère, ce qu'on appelle une « surrogate pair ».

Un peu de littérature :

Le site de Microsoft

Lexique franco-anglais pour les traductions des recommandations du W3C
(il parle de « paire suppléante »)

En fait, y'a 3 formes pour l'unicode : UTF-32, UTF-16 et UTF-8.

- UTF 32 : chaque caractère est codé sur 32 bits, soit 4 octets.
- UTF 16 : une partie des caracètre est codée sur 16 bits, une autre partie sur 32 bits.
- UTF 8 : là le codage est entièrement variable. Y'a des caractère sur 8 bits, d'autres 16, d'autres 24, c'est un bordel monstre Smiley lol

, mais l'avantage est qu'il garde une certaine compatibilité avec l'antique ASCII, ce qui en fait le codage Unicode le plus léger, à condition qu'on n'utilise pas trop de caractères exotiques.

Tous ces encodages permettent d'avoir plus de 2 milliards de possibilitées Smiley smile

Sujet clos