Hello, hello
Me penchant sur le sujet de la sémantique du balisage (ou le balisage sémantique, c'est comme vous voulez) pour un article, j'ai testé le Semantic Data Extractor.

Quand la page est bien structurée il fait son job. Mais là où il me pose problème c'est qu'il me sort des é et autres incongruités en lieu et place de nos signes diacritiques.
L'interclassement de la DB qui sort mes données est en UTF-8 ; le script qui pousse les pages doit sortir de l'UTF-8 ; etc.

Si vous êtes en UTF-8 avez-vous les mêmes déboires ?
Modifié par Sventovit (24 May 2008 - 17:35)
Sventovit a écrit :
Si vous êtes en UTF-8 avez-vous les mêmes déboires ?
Oui, oui ! Idem avec un site en utf-8 et OK avec un site en iso-8859-1 Smiley murf !
Ah ok.
En fait je pense que c'est lié au serveur qui héberge mon site.
L'analyse par l"Extractor" doit se faire par l'en-tête HTTP.
Si je regarde ce qu'envoie le serveur dans mon cas:
a écrit :

Date: Sun, 25 May 2008 07:00:29 GMT
Server: Apache/1.3.34 Ben-SSL/1.55
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Pragma: no-cache
X-Powered-By: PHP/4.4.8
Keep-Alive: timeout=2, max=200
Connection: Keep-Alive
Transfer-Encoding: chunked
Content-Type: text/html

200 OK

Il manque l'information sur l'encodage qui devrait être :
a écrit :

Content-Type: text/html; charset=UTF-8

Je me trompe peut-être, mais je ne crois pas que je puis y faire quelque chose.
J'ai essayé de pallier par un .htaccess comportant cette ligne:
a écrit :
AddDefaultCharset UTF-8

mais sans résultat.
Modifié par Sventovit (25 May 2008 - 09:20)
Sventovit a écrit :
En fait je pense que c'est lié au serveur qui héberge mon site.
L'analyse par l"Extractor" doit se faire par l'en-tête HTTP.
Ou alors tout simplement l'outil parse la page (un peu comme le ferait l'option plan du document de l'extension Web Developper) et se contente de reprendre en mode texte ce qu'il trouve entre les balises <hn>...</hn> sans s'inquiéter de l'encodage Smiley cligne .
Je pense que tu as complètement raison.
Il est payé pour n'extraire que la sémantique de la page et ne se préoccupe que de cela.