ThomasLinard a écrit :
Avec un codage 16 bits, on n'a que 65 536 possibilités, alors qu'Unicode 4 approche les 100 000 caractères. On utilise donc deux valeurs 16 bits pour représenter un seul caractère, ce qu'on appelle une « surrogate pair ».
Un peu de littérature :
Le site de Microsoft
Lexique franco-anglais pour les traductions des recommandations du W3C
(il parle de « paire suppléante »)
En fait, y'a 3 formes pour l'unicode : UTF-32, UTF-16 et UTF-8.
- UTF 32 : chaque caractère est codé sur 32 bits, soit 4 octets.
- UTF 16 : une partie des caracètre est codée sur 16 bits, une autre partie sur 32 bits.
- UTF 8 : là le codage est entièrement variable. Y'a des caractère sur 8 bits, d'autres 16, d'autres 24, c'est un bordel monstre
, mais l'avantage est qu'il garde une certaine compatibilité avec l'antique ASCII, ce qui en fait le codage Unicode le plus léger, à condition qu'on n'utilise pas trop de caractères exotiques.
Tous ces encodages permettent d'avoir plus de 2 milliards de possibilitées