Je tenais à parler de Scrapebox sur mon blog, tout simplement car je trouve l’outil génial et ce sur plusieurs plans. Voici d’ores et déjà la liste des personnes qui en parlent sur le leur et qui m’ont donné envie d’investir dans ce formidable outil après les avoir lu :

Notons également que ce billet n’est ni un tutoriel, ni une présentation exhaustive de Scrapebox, mais juste une manière de partager mon enthousiasme et une occasion de refaire le point sur le concept manichéen chapeau noir / chapeau blanc :)

Scrapebox : à quoi ça sert ?

Scrapebox sert à scraper pardi ! 😉 Plus exactement, à scraper les résultats des moteurs de recherche pour en extraire les URLs, et ce à partir d’une requête choisie (footprint).

La base est là. A partir de cette base se sont développées des fonctionnalités avancées très utiles. Elles sont principalement divisées en 4 parties :

1) Les mots clefs : Harvester

Scraper à partir d’une requête, c’est bien. A partir d’une liste fournie de mots clefs, c’est mieux 😉 (Sauf si bien sûr on a un footprint avancé permettant de récupérer exactement le type de page qu’on cherche).

Pour vous construire votre liste de mots clefs, Scrapebox est au top ! Un outil est à votre disposition pour trouver des mots clefs à partir d’une seule expression ou plusieurs… Pour ce faire, l’outil va scraper les Suggestions, les résultats des moteurs, etc…

On peut bien sûr choisir les sources à scraper. Et même effectuer plusieurs fois l’opération, pour checker google.com, .fr, .fr + langue fr…

2) Les proxys : Select Engines & Proxies

Dès qu’on automatise des requêtes sur Google, il faut en général très peu de temps pour être grillé. Un plugin FF affichant les PR dans les SERPs tel que SEOquake suffit pour s’en rendre compte. Donc autant vous dire qu’on peut oublier une utilisation de Scrapebox avec son IP. Personnellement je n’ai pas d’IP fixe, mais je n’ai pas envie de m’amuser à redémarrer ma box toutes les 5 minutes.

Heureusement, Scrapebox gère très bien l’utilisation des proxys. Et je pèse mes mots : vous pouvez choisir vos listes, vos sources, effectuer un test de l’ensemble pour garder seulement les valides et les plus rapides… Bref, royal quoi 😀

3) Commentaires automatiques : Comment Poster

Par curiosité je le testerai à l’occasion. Personnellement ce n’est pas trop mon truc. Mais l’outil de post de commentaires automatiques / semi-automatique de scrapebox a l’air bien fait. Il utilise notamment votre liste d’URL finale pour envoyer vos spams à partir de contenu spinable.

4) La finalité :  une belle liste d’URL : URL’s Harvested

Une fois le scrape des SERP effectué, vous pouvez trier votre liste, la réorganiser… Première fonction indispensable : la suppression des doublons. On peut également récupérer le PR pour s’en servir comme critère de tri, exporter la liste d’URL avec ou sans le PR et sous plusieurs formats. Mais ce n’est pas tout, grâce aux addons le tri peut être bien plus poussé :

(Une petite note avant pour vous dire qu’à ce stade on peut aussi scraper les emails présents dans les URL)

Les addons : la cerise sur le gâteau

Une liste de plugins est disponible. Leur installation prend quelque seconde. Et certains sont très puissants. Voici les deux dont j’ai le plus entendu parler, et pour cause, le premier est indispensable, le second permet de réellement lécher le résultat :)

  • DoFollow/NoFollow Check : Permet de savoir si les pages sont en do/no follow.
  • Outbound Link Checker. Permet de comptabiliser les liens entrants et sortants de chaque URL.

Je pense qu’à partir de là, on a tout dit : On récupère une liste d’URLs dans une thématique donnée, on supprime les doublons, on vire les pages no follow, on boycotte les plans grillés qui comptent trop de liens sortants et pour enfoncer le clou on trie le tout par pagerank !

A ce stade il ne vous reste que la crème de la crème, une belle liste d’URLs qui n’attendent plus que vos spams commentaires 😉

Voilà pourquoi je trouve dommage d’utiliser le Comment Poster. Si vous avez bien travaillé en amont, vous devriez avoir une liste d’URL qui vous demandera peu d’effort pour être utilisée proprement, tout le travail fastidieux ayant été exécuté par ScrapeBox.

Bon après, c’est peut-être à ce stade que les chemins se séparent entre les différentes façons de voir les choses et de travailler.

L’ami de tous les SEO quelque soit leur chapeau

J’en viens là où je voulais en venir avec ce billet :

Scrapebox est un parfait exemple pour illustrer cette frontière fine et poreuse qui sépare les Black Hat, White Hat, Grey Hat, Pink Hat… 😉 ScrapeBox automatise certaines tâches et peut faire gagner des dizaines d’heure de travail. Mais à chacun d’exploiter les données récoltées à sa manière.

Dans le référencement, on associe souvent l’automatisation des tâches au Black Hat. ScrapeBox vient prouver le contraire en se rendant indispensable à quiconque l’essaie, quelque soit sa philosophie ou ses méthodes opérationnelles.

White ou Black, un référenceur a besoin de liens, donc de pages, donc d’URL, donc de Scrapebox. CQFD

http://www.scrapebox.com