Bonjour!

Est-ce que quelqu'un connait un moyen ou un outil qui permet de scanner et de copier tous les textes d'un site (le mien) et de copier chacunes des pages dans un ou plusieurs documents Word/txt?

Éviter de passer à la main les 5000 pages du site (site d'institution) afin de copier-coller.

Et le site est actuellement désuet et établi sur un cms propriétaire vraiment fermé. LA/Les Bases de données du site sont merdiques. Presque incomprenable. Il est plus facile de passer par le site directement. Nous voulons conserver la base de nos textes, mais changer le reste.

Bref, je ne sais pas si ma question est claire!
Merci pour votre aide!
Modifié par jslanglois (09 Aug 2013 - 16:04)
Bonjour,

Si ton site à un RSS de configurer ça peut être une solution sur laquelle partir.

Tu as un accès à la base de donnée type phpmyadmin sinon ? Je pense que ça ne doit pas être insurmontable à gérer vu que le cms le fait bien Smiley langue

Bye
Au pire, tu as la solution aspirateur de site, éventuellement suivi d'une moulinette de filtrage HTML/XML pour éliminer les parties inintéressantes de chaque page.

Des logiciels d'aspiration, il en existe des dizaines, ça ne devrait pas être trop dur à trouver. Même un truc à la con de script kiddy est probablement suffisant.

Pour le filtrage, un script utilisant XML/XPath/DOM, ou XSLT, devrait faire la'ffaire, il doit bien y avoir des parties communes repérables sur chaque page qui sont adressables et extractibles de cette façon.