Outils d'automatisation / Web scraping

Question

DJousto

7 Feb 2015 à 20:46

Bonsoir à tous,

Je cherche un outil qui me permettrait d'automatiser l'analyse et la récupération d'informations de sites internet :
- récupérer une page, y chercher des infos qui répondent à un certain schéma (info contenue dans une div de telle class, ....) --> parser --> transformer --> enrichir (geocoding par exemple, via API web) --> enregistrer (csv, sql ...)
- récupérer les images d'un site, les transformer (taille, format), les enregistrer ....

Après avoir cherché un peu, je comprend qu'il y a 3 grandes familles d'outils
- des extensions de navigateurs (iMacro)
- des services en ligne (IFTTT)
- des outils/langages qui se lancent sur le poste de travail, à base de ruby, perl, ... je m'oriente plutôt vers ce type d'outils, je pense que c'est plus puissant, flexible et rapide. J'ai trouvé des outils comme SCRAPY, PhantomJS, MEchanize

Avez-vous utilisé ces outils, qu'en pensez-vous (confort d'utilisation, possibilités, rapidité ....) afin que je m'oriente vers le bon choix.

Freez

8 Feb 2015 à 15:01

Bonjour,

Pour ma part j'ai testé l'extension de navigateur (FF uniquement) Selenium IDE, c'est puissant pour automatiser le remplissage de formulaires et pour faire des tests d'intégration sur des sites assez interactifs.

Par rapport à ton besoin c'est bien un outil qu'il te faut surtout si tu veux faire des sorties fichier des infos que tu vas crawler. J'ai utilisé PhantomJS pour automatiser la prise de screenshots sur un site, la puissance de cet outil c'est qu'il s'agit d'un vrai navigateur : il est capable de rendre les pages en chargeant toutes les ressources externes et executant les scripts et feuilles de style. De plus, le langage utilisé pour écrire les scipts est JS, je trouve ça plutôt intuitif et simple (question d'habitude je suppose). Je ne peux pas te dire grand chose sur les autres mais je pense que PhantomJS peut être bien pour essayer car il est d'une grande facilité à tester (un simple exécutable).

Bonne continuation Smiley cligne

DJousto

9 Feb 2015 à 08:46

merci, je vais commencer par essayer phantomJS alors, çà m'évitera d'apprendre un nouveau langage

Felipe

Administrateur

9 Feb 2015 à 11:13

Bonjour,

+1 pour PhantomJS : j'utilise de temps à autre PhantomCSS surcouche de CasperJS surcouche de PhantomJS avec grand bonheur. Du genre 200+ captures de page dans 5 résolutions comparées par rapport à la version précédente *capturer des pages c'est pas pertinent, mieux vaut capturer des blocs comme conseillé partout... mais ça convient à mon projet.

Il y a 2 modes : test et normal, tu peux pas utiliser les 2 en même temps.
Le scraping de résultats Google avec PhantomJS est un tuto qu'on trouve assez facilement et c'est un bon début amha.

Il y a un outil pour récupérer du code HTML à partir d'un sélecteur CSS (genre jQuery quoi) : pup. Pas très connu mais je n'ai vu aucun autre outil faire ça, ça peut servir pour récupérer les images par exemple, quoique là je crois que wget fait ça de base (mais il récupère toutes les images, enfin je crois)

Sujet clos

Questions générales et questions de débutants

Outils d'automatisation / Web scraping