Outil de scraping d'emails et de blogs

Pour quels usages ?

Le scraping de blogs à pour but de se constituer une liste de sites acceptant les commentaires (afin d'y publier des messages, le plus souvent).

La difficulté réside dans le fait de dresser une liste de sites pertinents, en rapport avec son domaine d'activité.

C'est la raison pour laquelle nous avons développé notre propre robot de collecte, que nous mettons à votre disposition.
Ce dernier collecte également tous les emails rencontrés lors de son processus de collecte.

Robot de scraping

Présentation

Notre robot (développé en PHP, appuyé sur une base SQL) permet de rechercher en fonction d'un ou plusieurs sites de référence, que vous renseignez (en général des portails thématique, des annuaires ou des blogs influents, bien sûr en rapport avec votre domaine d'activité), et d'un ou plusieurs mots-clés.

Il se comporte comme un crawler, parcourant les sites au fur et à mesure des liens qu'il rencontre.

Si les mots-clés sont trouvés dans la page, le scraper enregistre les URLS des pages qui lui sont liées, et continue sa progression.
En outre, si elle possède une partie "commentaires", le robot stocke son URL dans une table dédiée.
De la même façon, si cette page contient des adresses e-mail, elles sont aussi extraites et stockées dans une table séparée.

Pour éviter de tomber dans une boucle infinie, il est possible de lui donner une limite maximum de pages à scanner au sein d'un même site.
Il scanne plusieurs sites simultanément afin d'accélerer le processus, et exclut les sites les moins pertinents (grâce à une liste modifiable).

Résultats

En temps réel, vous pouvez consulter la progression de la recherche, ainsi que le nombre de blogs et d'adresses e-mail collectés.

Le nombre de blogs et d'adresses email trouvés dépendra de plusieurs critères :

- le temps d'éxecution : ne pas hésiter à le laisser tourner plusieurs heures, voir plus !
- la précision des mots-clés : si vous cherchez "location chalet alpes megève", la recherche retournera moins de résultats, et donc se terminera plus vite qu'en cherchant "chalet alpes", c'est un compromis à trouver.
- le nombre de site de références saisis : ce sont, comme expliqué plus haut, les "points de départ" du scan. Plus ils sont nombreux et plus ils contiennent de liens externes, mieux c'est. Nous vous conseillons d'en choisir au minimum 5, pour bien faire.
- et bien sûr, la vitesse de votre connexion internet, dans le cas d'une exécution en local.

Ci-dessous un exemple de la partie "résultats", par souci de confidentialité les URLS ont été floutées.

Scraper bot

De quoi avez-vous besoin ?

Pour le faire fonctionner, un serveur disposant de PHP et MySQL est nécessaire.
Nous vous conseillons (pour des raisons de sécurité et de confidentialité) de l'exécuter depuis un serveur local (WAMP, XAMP...), en utilisant en outre un VPN.

Le script se relance à intervalles réguliers (par un rechargement de la page), donc il n'y a pas de contrainte de temps maximum d'exécution, uniquement de le laisser ouvert dans votre navigateur.

Téléchargement

Pour télécharger le script gratuitement, merci de renseigner votre adresse mail :

Le script vous sera envoyé par email immédiatement après avoir saisi votre adresse e-mail.

Ce script est réservé à un usage personnel ou professionnel, et ne doit en aucun cas être revendu, en tout ou partie.