Vive les caractères spéciaux

Question

Pages :

Oziris

22 Jul 2011 à 02:06

Bonjour,

Ce n'est pas une question, mais je viens de passer par hasard sur la liste des caractères spéciaux sur wikipédia

http://fr.wikipedia.org/wiki/Aide:Liste_de_caract%C3%A8res_sp%C3%A9ciaux

Je trouve çà fascinant, moi qui pensait qu'on était tellement limité...
Personnellement, çà me donne plein d'idées et voulait le faire partager.
Regardez les petites pièces d'échecs ou les icônes d'astronomie.

Je suis assez fier d'avoir trouver une icône enveloppe ici :
http://www.copypastecharacter.com/

On y pense pas assez, vive les caractères spéciaux

Niuxe

Modérateur

22 Jul 2011 à 05:14

Bonjour et bienvenue,

Perso, j'utilise régulièrement les caractères spéciaux (les quotes par exemple). Aussi, il y a désormais un concept intéressant à implémanter dans les pages, c'est utiliser une police d'écran avec toutes les glyphes ou les polices d'écran qui sont graphiques (dingbats, webding, etc.) Cette technique peut être implémantée via @font-face ^^.

Felipe

Administrateur

22 Jul 2011 à 10:56

Bonjour et bienvenue,

attention à l'utilisation de ces caractères : il faut que la fonte/police soit présente absolument partout (qu'elle soit websafe ou via @font-face et encore là ...), y compris sur un Win XP sans Adobe Reader, sur Mac, sur une distribution Linux (et y a pas que Debian et Ubuntu).

Et attention à l'utilisation qu'on en fait : qu'est-ce qu'une personne non-voyante va entendre dans son lecteur d'écran ? Rien probablement alors qu'il y a un petit symbole téléphone ou enveloppe. Si ça avait été une image basique, on aurait mis comme alternative textuelle "numéro de téléphone" alors que là rien, ils ratent des informations importantes Smiley decu

Perso j'ai le même souci dans les mails avec les utilisateurs de MS Outlook et les smileys Wingdings/Dingbats : j'ai mis des mois avant d'apprendre que cette lettre J qui termine certains paragraphes n'était pas un bug d'Outlook mais un smiley ... Idem pour K et L, plus rares

edit: mon site favori pour les entités HTML : http://www.digitalmediaminute.com/reference/entity/index.php à l'ergonomie et à la lisibilité supérieure à tous les autres
Modifié par Felipe (22 Jul 2011 - 10:57)

ptitvincent

22 Jul 2011 à 13:34

oui je confirme Felipe Smiley smile

Quand tu veux des caractères spéciaux, passe plutot par les table UNICODE. Au moins tu es sur de leur compatibilité.

fvsch

22 Jul 2011 à 18:43

Hello,

Pour commencer, les caractères spéciaux n'existent pas.
Je répète: les caractères spéciaux n'existent pas. Pas du tout du tout. C'est une vue de l'esprit.

En informatique il y a des caractères (tout court), et pour enregistrer ces caractères il faut leur attribuer un numéro, parce que les fichiers informatiques ce sont des nombres et pas des lettres. Et pour ré-afficher ces caractères quand tu ouvres un fichier, il faut lire les numéros et savoir à quel caractère ça correspond.

Pour que tout ça marche bien et qu'un "Y" devienne pas un 421 qui sera interprété comme un "Z" puis réenregistré comme un 92 qui sera interprété comme un "é" ou autre merdier du genre, on a des standards qui établissent des tables de correspondance qui disent des trucs comme: «Dans le standard MachinTruc, le Y (CARACTÈRE LATIN I GREC MAJUSCULE) c'est le nombre 89 et puis c'est marre.»

Bon. Un des premiers standards de ce genre à s'imposer c'était ASCII. Et en ASCII le jeu de caractères (la liste des caractères qui sont définis) se limite aux lettres latines utilisées par les américains (et encore...), plus quelques symboles ou signes de ponctuation. Donc pour écrire "Hello" ou "Bonjour", ça va, mais pour écrire "— Ça c’est épatant!" il nous manque déjà quatre caractères (tiret cadratin, C cédille majuscule, apostrophe typographique, E accent aigu). C'est pourquoi on a créé d'autres standards qui acceptent un peu plus de caractères, et enfin un standard (Unicode) qui accepte à peu près tous les caractères de toutes les langues vivantes écrites et de certaines langues mortes. Dans Unicode il doit manquer quelques caractères permettant d'écrire un obscur dérivé du Navajo, ce qui est tout de même regrettable.

Mais alors, les caractères spéciaux? Ah ben ça n'existe toujours pas. Smiley smile

En fait, pendant longtemps on a travaillé avec des systèmes qui utilisaient le standard ASCII. Ce cher ASCII a un jeu de caractères limité, comme je le disais. Et quand tu travailles avec un système qui utilise de l'ASCII quelque part, tu ne vas pas pouvoir utiliser tous les caractères qui n'appartiennent pas au jeu de caractères ASCII. C'est à cause de ce genre de restriction qu'on a pris l'habitude de parler de «caractères spéciaux»:
- les caractères qui appartiennent au jeu de caractères ASCII sont appelés... euh rien du tout;
- tous les autres sont appelés «caractères spéciaux», parce qu'il faut les gérer de manière spéciale (ou parce qu'on peut pas les utiliser du tout).

Heureusement, les systèmes qui utilisent ASCII sont de plus en plus rares, et à l'heure actuelle on peut utiliser des caractères Unicode un peu partout (avec le plus souvent des fichiers codés en UTF-8, un des codages de caractères associés au standard Unicode).

Allez, je répète pour la route: les caractères spéciaux ça n'existe pas. Smiley smile

Dernière chose: je peux utiliser un caractère Unicode (par exemple, le caractère Nuit étoilée) dans un fichier enregistré et déclaré en UTF-8, c'est bien et c'est standard mais... ça ne garantit pas un bon affichage dans les navigateurs ou ailleurs. Pour un bon affichage, les critères sont les suivants:
1. Mon fichier est bien enregistré en UTF-8 (ok ça va, je maitrise).
2. Mon fichier est bien déclaré en UTF-8 (ok pour ça aussi).
3. Le logiciel qui lit le fichier comprend l'UTF-8 (c'était parfois un problème il y a dix ans, mais c'est réglé, tout roule).
4. Le logiciel ou le système d'exploitation dispose d'une police de caractères où ce caractère Unicode est défini.

C'est le dernier point qui bloque souvent pour des caractères rares (comme ma nuit étoilée) ou que le développeur de mon système d'exploitation n'a pas jugé bon d'inclure (par exemple dans la version française de Windows XP il faut installer séparément les polices de caractères qui définissent le dessin des caractères chinois).

~~supprimé~~

22 Jul 2011 à 22:24

fvsch a écrit :

Pour commencer, les caractères spéciaux n'existent pas.
Je répète: les caractères spéciaux n'existent pas. Pas du tout du tout. C'est une vue de l'esprit.

C'est un peu comme les réseaux sociaux vs Facebook, le français (et pas que lui) est une lange vivante et c'est bien pratique de mettre des expressions simples sur des problématiques qui le sont parfois moins. Les caractères spéciaux sont nés et vivent caractères spéciaux et j'imagine qu'on sait de quoi on parle quand on s'y réfère.

Bonne synthèse néanmoins, merci pour ton futur article. Smiley cligne

Modifié par jb_gfx (22 Jul 2011 - 22:29)

~~supprimé~~

23 Jul 2011 à 10:24

Bonjour à toutes et à tous,

bravo pour le contre sens fvsch !

Les caractères spéciaux ne sont pas une vue de l'esprit mais bien une réalité. Et en plus, le monde de l'informatique ne se résume pas au WEB.

A moins d'être américain et d'adopter les deux standards en usage dans le monde informatique, qui sont EBCDIC pour IBM et ASCII pour la micro-informatique, tous les autres jeux de caractères sont bien des caractères spéciaux.

Mais il ne faudrait pas non plus confondre en informatique jeux de caractères et polices de caractères aussi !

Ils sont nés (les unicode) dans un premier temps, du besoin d'adopté, pour chaque pays, le standard en usage, comme l'alphabet grec chez les grecques, le cyrillique chez les russes, les sinogrammes chez les chinois.

De plus, ils ne sont pas l'exclusivité du monde WEB ! Que faites-vous des jeux de caractères de l'imprimerie qui ont été transposés dans la PAO pour ensuite devenir nos polices de caractères comme "arial" "times new roman" ... pour les plus connues.

Et que faites-vous aussi des caractères comme ceux propres aux types de machines comme les typographes, les télétypes, le minitel, les fax ...

Le sujet est trop vaste pour être entièrement abordés.

La seul chose qu'il faut savoir est que le standard qui est américain sur les micro-ordinateurs est le code ASCII : American Standard Code for Information Interchange et il n'est pas près de disparaitre car il est à la base du fonctionnement des micro-ordinateurs.

@+
Modifié par Artemus24 (23 Jul 2011 - 10:33)

~~supprimé~~

23 Jul 2011 à 13:41

La norme ASCII de base n'est plus utilisé depuis belle lurette. Ce que tu appelles ASCII, par abus de langage, n'en est pas, ce sont des normes différentes retro-compatibles avec l'ASCII comme par exemple ISO 8859-1 ou UTF-8. Si on utilisait encore l'ASCII on ne pourrait même pas écrire en français.
Modifié par jb_gfx (23 Jul 2011 - 13:50)

fvsch

23 Jul 2011 à 13:49

Artemus24, je crois que ta méconnaissance du sujet te fait dire quelques bêtises.

Pour être clair: dire qu'un caractère est «spécial» ne veut rien dire de précis. Si on veut être un peu exact, on peut dire qu'un caractère n'existe pas dans un jeu de caractères précis. On pourra parler, par exemple:
- de caractères hors ASCII ou non-ASCII.
- de caractères hors ISO-8859-1.
- de caractères hors Shift JIS.
- de caractères hors Unicode (et là, faut se lever de bonne heure pour en trouver).
- etc.

Historiquement et encore aujourd'hui, on a utilisé l'expression «caractère spécial» pour parler de tout caractère n'appartenant pas au jeu de caractères ASCII. Dans certains cas, quand on a l'habitude de travailler avec un codage différent tel que ISO-8859-1 par exemple, on parle aussi de «caractère spécial» pour tout caractère non défini dans ISO-8859-1. Ça ne m'étonnerait pas que certains développeurs japonais parlent de «caractère spécial» pour tout caractère pas défini dans Shift JIS.

Soyons donc un peu précis et bazardons cette notion de «caractère spécial» qui ne veut rien dire... mis à part «je ne comprends pas bien de quoi il retourne donc je vais dire que c'est spécial». Smiley smile

Artemus24 a écrit :
A moins d'être américain et d'adopter les deux standards en usage dans le monde informatique, qui sont EBCDIC pour IBM et ASCII pour la micro-informatique, tous les autres jeux de caractères sont bien des caractères spéciaux.

Les jeux de caractères sont des caractères spéciaux? Attention, tu confonds des concepts très différents. (Un peu plus loin tu parles de polices de caractères, des caractères d'imprimeries, etc.; je ne relève pas en détail mais il y avait quantité de confusions sur ces points aussi.)

Artemus24 a écrit :
Ils sont nés (les unicode) dans un premier temps, du besoin d'adopté, pour chaque pays, le standard en usage, comme l'alphabet grec chez les grecques, le cyrillique chez les russes, les sinogrammes chez les chinois.

Deux fois non:
- Le besoin d'écrire telle ou telle graphie locale a existé bien avant Unicode et a donné lieu à la création de plusieurs jeux de caractères et codages (un exemple parmi d'autres: CP-1252).
- Unicode (pas «les unicode») est un standard qui est né de la volonté, à partir de 1989, de créer un jeu de caractères universel (Universal Character Set). Le consortium Unicode lui-même a été créé en 1991.

Artemus24 a écrit :
Et que faites-vous aussi des caractères comme ceux propres aux types de machines comme les typographes, les télétypes, le minitel, les fax ...

Une partie de ces systèmes utilise en effet des jeux et codages de caractères. Ça n'infirme pas du tout ce que j'écris plus haut.

Artemus24 a écrit :
La seul chose qu'il faut savoir est que le standard qui est américain sur les micro-ordinateurs est le code ASCII : American Standard Code for Information Interchange et il n'est pas près de disparaitre car il est à la base du fonctionnement des micro-ordinateurs.

Historiquement, pour certains systèmes d'exploitation ou protocoles de communication, oui. Et encore, ce n'est pas systématique. ASCII est un standard historique, encore utilisé sur certains systèmes (avec des surcouches pour gérer plus de caractères dans certains cas), c'est vrai. Et alors? Ça ne veut pas dire que les caractères non définis par ASCII sont des «caractères spéciaux» (notion qui encore une fois n'a pas de sens).

Pour la petite histoire:
- Depuis les années 90 un poste sous Windows dans une version française ou américaine n'utilise pas ASCII comme codage de référence, mais CP-1252 (ou Windows-1252), qui offre un jeu de caractères plus large.
- À partir de Windows 2000, Windows utilise UTF-16 (et donc le jeu de caractères Unicode) pour son fonctionnement interne et pour le système de fichiers, il me semble. Certaines applications telles que Notepad enregistrent peut-être toujours les fichiers en CP-1252 par défaut sur les version anglaises et françaises, ce serait à vérifier (avec peut-être un changement entre XP, Vista et Win7?).
- Depuis les années 90 (ou plus tôt peut-être?) un poste sous Mac OS dans une version française ou américaine n'utilise pas ASCII comme codage de référence, mais MacRoman, qui offre un jeu de caractères plus large.
- Une bonne partie des composants de Mac OS X utilise UTF-16 également. Je ne sais plus si le système de fichiers utilise UTF-16 ou UTF-8 (mais bon, c'est de l'Unicode dans les deux cas).
- Certaines applications par défaut sur Mac OS X (en français ou anglais, pas testé d'autres versions) continuent à enregistrer du MacRoman par défaut et à attendre cet encodage dans les fichiers texte. C'est le cas notamment de TextEdit et Quick Look. Mais Apple vient de corriger ça en passant à UTF-8 par défaut pour ces applications (dans Mac OS X Lion), et c'est pas dommage!
- Tous les systèmes d'exploitation Linux que j'ai utilisé dans les années 2000 n'utilisaient pas ASCII mais UTF-8 (et donc le jeu de caractères Unicode).

Artemus24, je t'incite à plonger dans le monde merveilleux d'Unicode. Il y a tout un tas d'articles techniques qui donnent de bons repères sur ASCII, ISO-8859-1, CP-1252, Unicode, UCS, UTF-8, UTF-16... sur Wikipédia. Smiley smile

~~supprimé~~

23 Jul 2011 à 13:57

fvsch a écrit :
Certaines applications telles que Notepad enregistrent peut-être toujours les fichiers en CP-1252 par défaut sur les version anglaises et françaises, ce serait à vérifier (avec peut-être un changement entre XP, Vista et Win7?).

Devine comment ils l'ont nommé dans l'interface du logiciel ? Smiley smile

fvsch

23 Jul 2011 à 14:43

jb_gfx a écrit :
Devine comment ils l'ont nommé dans l'interface du logiciel ?

Lequel? Pour CP-1252, Microsoft et d'autres éditeurs ont une facheuse tendance à appeler ça "ANSI", pour des raisons historiques déjà pas super défendables à l'époque:
http://en.wikipedia.org/wiki/Windows-1252#Details (troisième paragraphe)
S'ils proposent de l'UTF-8 ou de l'UTF-16 avec des noms bizarres, je m'en souviens pas.

~~supprimé~~

23 Jul 2011 à 16:29

Bonjour à toutes et à tous,

"fvsch" a écrit :
Historiquement et encore aujourd'hui, on a utilisé l'expression «caractère spécial» pour parler de tout caractère n'appartenant pas au jeu de caractères ASCII.

Avant de me répondre que je dis n'importe quoi, il faudrait d'abord s'entendre sur le sujet.

La définition que tu donnes ci-dessus est celle que j'ai toujours entendu depuis que je fais de l'informatique. Le standard dans la micro informatique, c'est l'ASCII. Et ceci est représenté par un jeu de caractères (sur 7 bits) programmé dans de la ROM ou dans une PROM de tout ordinateur. Pour être encore plus explicite, le standard, ce sont les 127 premiers caractères, d'où les sept bits et rien d'autre. Mais pour des raisons historiques, ce standard s'est vu ajouté des caractères supplémentaires pour répondre au besoin de caractères spéciaux comme les accents dans la langue française. D'où un ASCII étendu qui cette fois-ci est représenté sur huit bits c'est à dire un caractère informatique du temps ou les machines avait des mots de huit bits que l'on nommait caractère.

Par la suite, les machines ont évoluées pour passer à des mots de 16 bits et des besoins supplémentaire se sont fait à nouveau sentir. Dans un premier temps, on parlait des tables d'extensions du code ASCII qui pouvaient être spécifique à chaque pays. Par la suite, ces tables sont passés de 8 bits à 16 bits. C'était le foutoir car tout le monde désirait sa table et il n'y avait aucune norme. Par la suite (fin des années quatre-vingt) une nouvelle norme est apparue, venant à la suite de ce foutoir pour mettre un peu d'ordre. Il s'agit de la norme UNICODE.

Nous sommes passé de l'extension ASCII sur 16 bits à la norme UNICODE sur 16 bits. On parle de norme UNICODE pour l'ensemble de toutes les tables définissant ces jeux de caractères. Mais par un abus du langage, on dit les unicodes car il n'existe pas une seul table mais une multitude, parfois même plusieurs pour un même pays.

Un jeu de caractères est un ensemble de caractères ne pouvant pas subir de changement dans la taille car à cette époque, le problème de la place était un problème récurrent sur des machines dont la mémoire active ou RAM ne pouvait pas excéder les 64K octets. Et en plus, les caractères étaient pixelisés. Souvent la représentation à l'écran du caractère était faite dans un rectangle de 7 bits de large par 9 de haut et on avait pas le choix. Il existait le plus souvent un seul jeu de caractères pour l'écran. Un écran faisait 80 caractères de large et 24 caractères de haut. Nous retrouvons cela, dans le monde du gros système sur les consoles 3270 de chez IBM. Pour la micro-informatique on avait le choix entre plusieurs jeu de caractères mais en changeant la ROM de l'ordinateur. Les imprimantes avaient une largeur de 133 caractères dont le premier caractère était un caractère spécial faisant soit un saut de page, ou les interlignes ou encore la surimpression. C'était le temps des APPLE II+, des Commodores, des TRS 80 et autres vielles bécanes.

Cela se passait dans le courant des années quatre-vingt.

Ensuite, dans les années 90, le monde de la typographie est venue s'introduire dans le monde informatique avec une nouvelle norme que l'on nomme "les polices de caractères", avec une plus grande richesse dans la définition de la représentation des caractères. C'est le temps des Mac-intosh et des premiers système d'exploitation Windows.

La norme UNICODE a changé, ainsi que la représentation du caractère. Pour une table au norme UNICODE, on pouvait avoir plusieurs milliers de caractères et un caractères pouvait s'écrire sur plus de 16 bits. La taille du caractère à 16 bits n'étaient plus assez suffisante.

Ensuite avec l’avènement dans les années 95 du WEB, de nouvelles normes sont arrivés ainsi que de nouvelle représentations des caractères. Nous avons les normes PostScript de chez Adobe et TrueType de chez Microsoft et Apple. Et le caractère n'est plus pixelisé mais vectorisé.

Le problème est qu'avec l'avènement du WEB, le monde de l'informatique s'est scindé en deux. Pour des raisons professionnelles, je suis resté dans le monde du gros système et de l'Unix et je ne connais pas très bien le monde du WEB.

Donc en conclusion, je dirais que l'informatique n'est pas né avec le WEB et qu'il existe des raisons à cette prolifération des jeux de caractères (informatique) et des polices de caractères (typographie). Donc, je dirais qu'il existe un standard qu'est l'ASCII pour le jeu de caractères qui est encore très utilisé dans le monde de la programmation (C, C++, java, ...) ainsi que la norme UNICODE. Dans le monde du WEB, il n'en est pas de même car les besoins sont différents, et sont surtout d'ordre esthétique.

Il n'y a pas de standard (standard veut dire adopté par tout le monde), mais plutôt des habitudes ou des contraintes qui sont propres à chaque pays.

@+
Modifié par Artemus24 (23 Jul 2011 - 16:31)

fvsch

24 Jul 2011 à 01:06

Que dire...

Déjà, merci pour la perspective historique. Malgré quelques erreurs factuelles et une méconnaissance claire de l'état de l'art en 2011, il y avait des choses intéressantes.

Ensuite, je pourrais passer la nuit à relever dans le détail certaines erreurs factuelles (pas toutes, car je ne suis pas un expert du sujet), mais aussi des abus de langage et l'utilisation ratée de notions qui ne sont apparemment pas maitrisées (au pif: «standard» et «norme»), et enfin des confusions ou flous énormes (notamment: entre jeux de caractères et polices de caractères).

Comme je tiens à mon sommeil, je vais en rester là.

Niuxe

Modérateur

24 Jul 2011 à 12:33

Et l'eau,

<troll mode="after vendredÿ">
et l'ASCII art, c'est quoi comme jeu de caractères spéciaux ???? Smiley biggol

</troll>

Merci Florent pour cette précision. Cependant, tu n'as pas tout à fait raison. Il y a bien des caractères spéciaux (je crois même que ce sont les BOM) Je pense que cette méconnaissance du sujet vient de cette ù$*^:! Word (menu insertion/caractères spéciaux).

Artemus24 a écrit :

[...]
Ensuite, dans les années 90, le monde de la typographie est venue s'introduire dans le monde informatique avec une nouvelle norme que l'on nomme "les polices de caractères", avec une plus grande richesse dans la définition de la représentation des caractères. C'est le temps des Mac-intosh et des premiers système d'exploitation Windows.
[...]

Hmmm.... Là, tu fais fausse route et tu es anachronique dans tes propos :
* macintosh
* microsoft
* DOS (troll inside : dirty operating system)
* ms-dos
* postcript (1982)
* truetype (1980)

@Felipe : Merci !! Je n'avais pas du tout pensé à ce point de vue.

~~supprimé~~

24 Jul 2011 à 17:21

Bonjour à toutes et à tous,

la seule contradiction présentée ici, est le rejet de l'existence même des caractères spéciaux. Le standard est le code ASCII. La micro informatique fonctionne avec ce standard. Je ne parle pas du WEB mais des micro-ordinateurs. Lorsque vous faites du développement en C, C++, Java, les caractères que vous manipulez sont de l'ASCII. Il y a la possibilité de travailler avec de l'UNICODE, mais c'est plus lourd à mettre en œuvre dans les programmes informatiques, car cela nécessite plus de déclaration.

Il faut se rappeler que les premiers ordinateurs possédaient qu'un seul jeu de caractères l'ASCII et il n'y avait que des éditeurs de texte (qui modifie que du texte). Et pour ce que l'on en faisait (saisie du source des programmes informatique), cela était largement suffisant.

M. Niuxe, je vous parle de mon expérience en informatique et non d'une erreur historique de ma part, du développement des caractères.

En 1980, en France, dans le monde des entreprises, il n'y avait pas de micro-ordinateurs. Les Apple ont été commercialisés dans le monde vers les années 1977-1978 et le temps qu'ils viennent des états-unis en Europe et qu'ils soient commercialisés puis ensuite adoptés, il s'est écoulé plusieurs années. Le tout premier micro-ordinateur dont je me souviens à un usage d'entreprise fut l'ITT 2020 et il était une copie de l'APPLE II.

Et même si les PostScript et TrueTYpe ont été créé en 1980-1982, elles ne sont véritablement apparues dans le grand public que lors de l'introduction des traitements de textes dans la micro-informatique, soit essentiellement avec l'apparition grand-public du mac-intosh. Et je vous rappel qu'en 1986, l'internet n'existait pas pour le grand public. Donc si en apparence, j'ai inversé l'ordre chronologie, la raison est toute simple : il fallait un micro-ordinateur pour pouvoir s'en servir, et surtout un micro qui puisse faire l'usage des traitements de textes et non des éditeurs de textes comme c'était le cas à l'époque.

Hormis l'Apple II qui a été mon premier micro personnel, j'ai, au travers des entreprises, surtout travaillé avec le système d'exploitation WINDOWS dans le cadre des émulations des consoles IBM 3270 (comme par exemple EXTRA) pour accéder aux gros systèmes IBM.

C'est au travers des traitements de textes (comme WORD) que j'ai vu l'introduction des polices de caractères. Le WEB n'existait pas encore en 1986. Il allait apparaitre dix ans plus tard en 1994-1995 dans le grand public.

Mais à cause de la limitation des 128 caractères américains du code ASCII, il est tout à fait normal qu'apparaisse de nouveau jeu de caractères qui dans un premier temps pouvait répondre à des besoins comme par exemple les claviers. Il existait en France deux type de claviers, les QWERTY donc américains et les AZERTY donc français. Je parle essentiellement des premiers micro-ordinateurs IBM acceptant le système d'exploitation WINDOWS. Pour court-circuité le jeu de caractères natif (en ROM), il fallait au démarrage MSDOS chargé un jeu de caractères (sous la forme d'un fichier) qui était déclaré dans l'AUTOEXEC.BAT.

L'introduction des traitements de textes, allait "chambouler" tout ce qui se faisait en tant que jeu de caractères car pour l'ensemble, ils étaient inadaptés et non normalisé. Un jeu de caractères, tel que je l'ai appris, est un ensemble de caractères associé à un code numérique et ayant un dessin du caractère non modifiable et souvent représenté sous la forme de pixel. Cela vient essentiellement du monde de l'électronique et des télécommunications.

Dans un premier temps, l'unicode est venu supplanté les limites du code ASCII, mais non pas dans le cœur de la machine, mais dans les traitements de textes. Ce sont les débuts de la PAO. Je n'ai jamais fait de PAO, car en entreprise sur nos micros, on avait que WORD. Par la suite, et surtout avec l'avènement du WEB, de nouvelles normes sont venues remettent tout cela en cause (donc à partir des années 1994 en France).

Donc dire que l'ASCII va disparaitre est une aberration car tous les micros fonctionnent avec ce jeu de caractères. Maintenant, si vous parlé de l'unicode UTF-8 ou encore du standard ISO-8859-1, et dans une moindre mesure tout ce que vous appelez un "charset" qui à été mal traduit par un jeu de caractères, je ne vous contredirais pas sauf sur un point : ce sont tous des caractères spéciaux car issus du code ASCII.

Donc maintenant si vous me dites que c'est faux, je vous pose la question concernant, par exemple, le standard de la lettre A, en tant que dessin ou forme reconnu et admis par tout le monde ?

La réponse est : il n'y en a pas.

Et pourquoi donc ? Car il existe différentes origines, et différentes représentations aussi bien typographique qu'informatique et même s'il y a une sorte de normalisation afin de pouvoir s'y retrouver dans toutes ces polices de caractères, ils sont tous des caractères spéciaux car ils sont spécifiques à une police de caractères.

@ fvsch : ah, oui, je précise ici, que j'ai lu ton astuce avant de me prononcer !

@+
Modifié par Artemus24 (24 Jul 2011 - 17:36)

~~supprimé~~

24 Jul 2011 à 18:17

Le problème c'est que tu confonds les jeux de caractères et les polices de caractères.

Un jeu de caractères est un tableau qui donne la correspondance entre une valeur numérique et un caractère à renvoyer sur le périphérique de sortie. Il ne contient aucune représentation visuelle des caractères (d'ailleurs il ne contient rien, ce n'est pas un conteneur).

En ASCII, ISO-8859-1 ou UTF-8 le caractère "a" (minuscule) correspond à la valeur numérique 0x61h (soit 1100001 en binaire).

Cette valeur n'est en aucun cas une représentation graphique (que soit sous la forme d'une grille de pixels (polices bitmaps) ou d'un tableau de vecteurs (polices vectorielles telles que TrueType, PostScript, OTF, etc) de la lettre "a" mais simplement indication pour le système hôte qu'à l'endroit où il trouve cette valeur il doit afficher ce caractère. La donnée qui sera affichée sera la représentation graphique de la lettre telle qu'elle est définie dans le fichier de police sélectionnée (que ce soit une police bitmap ou une police vectorielle), ou autre : un caractère n'est pas forcément représenté par une police graphique, cela peut être un son, un code, des impulsions électriques, etc.

Tu peux vérifier ça avec un test simple : crée un texte simple avec un éditeur (par exemple le Bloc Note), disons le texte "Bonjour". Enregistre le et ouvre le dans un éditeur hexadécimal, tu obtiens la séquence : 0x42h 0x6Fh 0x6Eh 0x6Ah 0x6Fh 0x75h 0x72h. Retour dans ton éditeur de texte tu changes la police de caractères, tu enregistres et tu ouvres le fichier dans ton éditeur hexadécimal et tu auras exactement la même chose. L'encodage des caractères n'a pas changé bien que tu ais changé la police de caractères.

Si on prend un caractère ne faisant pas parti du standard ASCII comme "é", il est encodé comme ceci : 0xE9h en ISO8859-1 (soit 11101001 en binaire), 0xC3A9h en UTF-8/Unicode (soit 1100001110101001 en binaire), et en ASCII ce caractère n'existe pas.

Bien entendu on parle ici du standard ASCII, c'est à dire la version normalisée par l'American National Standards Institute (ANSI). Standard = norme, rien à voir avec le fait que "tout le monde l'utilise". Si sur un système on te propose de l'ASCII qui permet d'utiliser le caractère "é" c'est un abus de langage et dans tous les cas ce n'est pas de l'ASCII, c'est soit :

- Un jeu de caractères standard compatible, totalement ou en partie avec l'ASCII : Windows-1252, ISO8859-1, UTF-8, etc.
- Un jeu de caractère custom basé sur l'ASCII. Donc pas un standard.
Modifié par jb_gfx (24 Jul 2011 - 18:42)

~~supprimé~~

24 Jul 2011 à 19:45

Bonjour à toutes et à tous,

je connais déjà tout cela et je suis d'accord avec tes propos. J'ai l'impression que la conversation dérive, car au départ, ma réaction à été de ne pas accepter le rejet de l'expression "caractères spéciaux. Maintenant nous nous trouvons au dela même du code ASCII.

Ce dont je parle maintenant est que, pour beaucoup de gens "jeux de caractères" et "polices de caractères" sont synonymes. Or ce n'est pas le cas.

Une police vient du mot polyptyque et est synonyme de fonte. C'est avant tout un dessin, une représentation graphique d'un symbole ou encore un glyphe et son usage vient de monde de la typographie, c'est à dire de l'imprimerie.

Dans le cas du jeu, je n'ai pas trouvé de véritable définition. La seule que je considère comme valable est une collection dont on met en correspondance le code numérique avec sa représentation graphique. Je dirais qu'il s'agit d'une définition informatique. C'est ce dont tu as parlé dans ton dernier post.

Or le problème, s'il y en a un, est que l'on désigne souvent par jeu, ce qui est en vérité une police. Mais comme la confusion est entretenue depuis fort longtemps, plus personne ne s'y retrouve, surtout moi.

Si j'utilise le terme désignant une police de caractères "times new roman" quelle est sa correspondance dans les jeux de caractères utilisés par le WEB (comme l'utf-8 ou iso-8859-1) ?

A moins que l'expression police de caractères ne soit réservé qu'à la PAO ou encore à la typographie ? Et que dans le monde WEB, il n'existe aucune correspondance ?

Et maintenant que j'ai le temps de réfléchir à beaucoup de concepts en informatique, je constate que j'ai utilisé des concepts depuis fort longtemps et correctement sans même savoir ce que cela recouvrait. Car en plus, des définitions ont changé avec le temps et l'usage que l'on fait.

@+

~~supprimé~~

24 Jul 2011 à 20:18

Artemus24 a écrit :

A moins que l'expression police de caractères ne soit réservé qu'à la PAO ou encore à la typographie ? Et que dans le monde WEB, il n'existe aucune correspondance ?

Dans le monde du Web ont utilise aussi le terme police de caractère ou fonte. Il n'y a aucune différence avec le reste de l'informatique (je ne vois pas pourquoi il y en aurait).

Artemus24 a écrit :

Si j'utilise le terme désignant une police de caractères "times new roman" quelle est sa correspondance dans les jeux de caractères utilisés par le WEB (comme l'utf-8 ou iso-8859-1) ?

Aucune, "Times New Roman" est le nom de la police. Le jeu de caractère de la police (c'est là qu'il y a confusion) dépendant du format de fichier utilisé pour la stocker.

Disons que tu as cette police au format Open Type. Open Type référence les différents caractères selon la table (jeu de caractère) Unicode.

Donc si tu demandes "é" afficher le caractère à de cette police dans un document codé en Unicode (que ce soit une page Web, un fichier Photoshop, un document Word ou autre) le logiciel (navigateur Web, Word, logiciel de PAO) sais qu'il doit utiliser les données situés à l'adresse du fichier OpenType référencée par la clé 0xC3A9h (je fais un gros raccourci mais c'est pour donner un exemple simple).

Si tu voulais utiliser la même police et afficher la même lettre dans un document encodé en ISO8859-1, le logiciel chercherai la correspondance de la valeur 0xE9h (valeur de "é" en ISO8859-1) avec son équivalent Unicode et trouverai donc 0xC3A9h (gros raccourci encore). A partir de là il peut afficher le caractère car il sait où sont stocker les données dans le fichier de la police.
Modifié par jb_gfx (24 Jul 2011 - 20:32)

fvsch

25 Jul 2011 à 00:17

Artemus24 a écrit :
Donc dire que l'ASCII va disparaitre est une aberration car tous les micros fonctionnent avec ce jeu de caractères.

Pas en 2011; renseignez-vous.
Pas même en 2000.

ASCII ne va pas disparaitre car il est encore utilisé comme jeu de caractère de référence dans de nombreux systèmes. ASCII est aussi utilisé comme standard de référence dans de nombreux standards du Web de «bas niveau», notamment pour les noms de domaine et les URL (avec des possibilités d'internationalisation via Punycode et les URL Escapes).
Quant aux standards de plus haut niveau, Unicode s'y impose comme référence (entités numériques dans HTML et XML, CSS Escapes...) ou dans les usages (UTF-8 est le codage majoritaire sur le Web).

fvsch

25 Jul 2011 à 00:38

Artemus24 a écrit :
Or le problème, s'il y en a un, est que l'on désigne souvent par jeu, ce qui est en vérité une police.

Pour ma part c'est la première fois que je rencontre cette confusion entre jeu de caractères et police de caractères. (La confusion entre jeu de caractères et codage de caractères est plus fréquente, ce qui s'explique aisément.)

Artemus24 a écrit :
Si j'utilise le terme désignant une police de caractères "times new roman" quelle est sa correspondance dans les jeux de caractères utilisés par le WEB (comme l'utf-8 ou iso-8859-1) ?

Là c'est une question de standards techniques des différents formats de fontes (Type 1, Truetype, Opentype...). Dans Opentype chaque glyphe est identifié par un numéro Unicode, donc les logiciels (librairie système notamment) qui utilisent la fonte savent facilement quel glyphe utiliser. Pour Type 1 et Truetype qui datent d'avant Unicode, il faudrait voir, mais de toute façon les librairies système rendent tout ça transparent et travaillent en interne avec de l'Unicode (sur les sytèmes actuels du moins).

Artemus24 a écrit :
A moins que l'expression police de caractères ne soit réservé qu'à la PAO ou encore à la typographie ?

Le système d'exploitation que tu utilises à l'heure actuelle, il utilise déjà une ou plusieurs polices de caractères rien que pour afficher une interface utilisateur (menus, titres dans les fenêtres, textes divers). Le navigateur web que tu utilises fait aussi appel à des polices de caractères. Les styles CSS peuvent demander à utiliser une police de caractères particulière (propriété CSS font-family). Elles peuvent même indiquer un fichier de fonte (ou plusieurs, pour une police de caractères complète) via la règle CSS3 @font-face. Donc non, les polices de caractères ne sont pas réservées à la PAO.

Une précision:
- "Arial" est une police de caractères (typeface);
- "Arial Regular" ou "Arial Italic Bold" sont des fontes (fonts).

Pages :

Sujet clos