Télécharger une page web avec ses dépendances

Question

Okahiro

15 Jul 2015 à 21:51

Bonjour à tous, j'essaye depuis plusieurs heures de trouver une solution pour télécharger une page HTML avec toutes ses dépendances.

J'aimerais télécharger le .html mais aussi toutes les feuilles de style, les .js et les images mais surtout et ce qui me pose le plus de problème les images contenues dans les CSS (background : url("http://exemple.com/image.png") par exemple.

J'ai essayé avec wget sans grande réussite.

Merci d'avance,

Okhr

Olivier C

16 Jul 2015 à 09:12

Et bien que dire.... Faites des balises meta appelant les feuilles de style, des balises script appelant vos scripts. Si vous ne savez comment procéder allez voir le code source d'un site web, le reste n'est qu'un problème de chemin.
Modifié par Olivier C (16 Jul 2015 - 09:12)

PapyJP

16 Jul 2015 à 09:23

Voir https://httrack.com/page/1/fr/index.html
Ça permet de recopier tout ou partie d'un site dans une arborescence de fichiers. Pas sûr cependant que ça charge aussi les images de fond, je ne peux pas tester depuis l'endroit où je suis.
Modifié par PapyJP (16 Jul 2015 - 09:24)

thierry

16 Jul 2015 à 15:06

a écrit :
Bonjour à tous, j'essaye depuis plusieurs heures de trouver une solution pour télécharger une page HTML avec toutes ses dépendances.

Bin, tu fais Fichier > Enregistrer sous. en tout cas, dans Firefox et IE, ça marche. Avec Chrome, le code HTML (et peut-être celui des autres fichiers, à moins qu'il ne le soit déjà) est minifié.

Si tu utilises Safari, à ma connaissance, et à moins que ça aie changé, ça ne marche pas.

Sinon, pour télécharger un site, httrack est très bien,mais ça ne marche que sur les sites statiques.
Modifié par thierry (16 Jul 2015 - 15:07)

Okahiro

16 Jul 2015 à 17:37

Aucune de ces solutions ne permettent de télécharger les images appelées depuis le CSS Smiley decu

CVS

16 Jul 2015 à 19:28

Tu veux pomper le site ? Je pige pas le but de ta manoeuvre ...
Modifié par CVS (16 Jul 2015 - 19:29)

mathieu1004

16 Jul 2015 à 20:35

Oui oui il veut pomper le site. Tu peux avoir des raisons plus ou moins valable de vouloir pomper un site :

-Tu pars a l’étranger et tu n'aura pas internet, ça peut être pratique d'avoir une copie de certains sites en local (un site qui propose des cours par exemple)
-*troll* Tu pars en chine et tu veux avoir une copie d'un site censuré *troll*
-Tu veux aider un mec qui a des problèmes sur son site, tu t'en fais une copie local pour essayer de debug plus simplement ( genre pour ce poste : http://forum.alsacreations.com/topic-1-76333-1.html )
-Tu aimes bien le jeux de la page d'accueil google mais ne sera disponible qu'un seul jour et toi tu en veux une copie pour continuer a perdre ton temps

Il doit y avoir le même genre de problème pour les fichier css (entre autre, ca doit aussi être vrai pour le reste) qui sont chargés depuis le javascript
Par exemple le javascript qui ajoute en élément précédent la balise style et qui va chercher le fichier css dans un localstorage si il existe sinon il le met dans le localstorage, truc dans ce genre la quoi

Après si tu as un esprit négatif :
- il cherche a pomper un site pour en faire une copie identique pour faire du pishing et voler des comptes
- il cherche a pomper un site trop classe pour se faire un site a lui a pas cher
-j'ai pas d'idée mais on doit pouvoir encore trouvé 2 3 exemples...

Olivier C

17 Jul 2015 à 08:02

Les images en background sont codées avec des liens relatifs, normal que ça ne marche pas en local. Idem pour tous fichiers css ou js appelés de cette manière. Comme je l'ai dit plus haut il faut donc reconstruire les liens en absolu

De plus, s'il est bien construit, le site aura configuré sont .htaccess afin de ne pas se faire pomper sa bande passante: donc, même si les liens sont correct, les images ne s'afficheront pas en local ou sous un autre nom de domaine que celui du site d'origine (et des domaines qu'il autorise).
Modifié par Olivier C (17 Jul 2015 - 08:03)

mathieu1004

17 Jul 2015 à 10:22

Je ne suis pas vraiment d'accord.
Je pense que le problème ne vient pas du fait que le lien soit relatifs ou absolu, mais du fait que le 'gestionnaire' de téléchargement ne cherche pas dans le code des fichiers css/js, qu'il se contente de prendre les images des balises images et de suivre les liens <a href> (qui pointent sur le même site selon comment c'est configurer sur le gestionnaire).

Pour ce qui est de pomper la bande passante, généralement il est possible de limité la vitesse de téléchargement pour ne pas éclater un site (de mémoire avec wget c’était possible)
Modifié par mathieu1004 (17 Jul 2015 - 10:25)

Sujet clos