Bonjour,

Je dois parser des fichiers xml (newsml) pour insérer leur contenu dans une base de donnée mysql.

Je n'arrive pas à extraire les données html des ces fichiers mais uniquement le texte des différents nœuds.

Par exemple imaginons un fichier xml dont une partie du contenu est :

...
<datacontent>
<head>
<title>Test</title>
</head>
<body>
<p>John Smith <br/>San Francisco<br/><b>USA</b></p>
...
</body>
</datacontent>
...


Je veux extraire le contenu des différents nœuds <p></p> inclus dans la balise <body>.

Que ce soit en ASP (classique) ou en PHP je n'arrive qu'à récupérer.

John Smith San Francisco USA
au lieu de
John Smith <br/>San Francisco<br/><b>USA</b>


J'ai perdu les <br/> et les <b></b>.


Auriez vous des pistes de réflexion à me proposer ?

Merci d'avance.
Modifié par elric47 (13 Aug 2008 - 15:47)
Je pense que dans un document xml, les balises htmls sont interprété comme des balises xml, d'ou le fait qu'ils soient ignoré lorsque tu prend la value du body, une solution serait de faire un template xsl qui écrive <br/> à chaque fois qu'il rencontre <br/>.
Du genre ( j'écris ça à la main donc à corriger)
<xsl template match="//br">
     <br/>
</xsl template>