Dans une vidéo diffusée sur la chaine Google Webmaster Central, Matt Cutts s'exprime sur le fait de voir son contenu "scrapé", c'est-à-dire reproduit par des sites tiers. Selon lui, tant que le scraper fait un lien vers la source, ou que le contenu scrapé contient des liens vers le site original, cette duplication de contenu est plutôt bénéfique et ne devrait pas poser de problèmes en termes de visibilité dans les pages de résultats. Si c'était le cas cependant, Matt Cutts suggère de lancer une procédure de DMCA, ou d'effectuer un spam report.
Personnellement je serai plus nuancé. Il n'est pas si rare que des sites republiant du contenu (avec autorisation ou de façon sauvage) se positionnent mieux que le site source, alors même qu'un lien est fait vers ce dernier. C'est le cas typiquement des agrégateurs bénéficiant d'une forte notoriété qui arrivent à se positionner devant les sites sources souffrant d'un déficit de popularité. Heureusement le plus souvent le problème peut se régler en travaillant à développer les liens entrants du site original. De plus si le scraping existe c'est que cela crée du trafic. Où irait ce trafic sans scraping ? Là dessus je n'ai pas de réponse définitive. Dans mon cas par exemple, plusieurs sites font du trafic avec mon contenu (S2M, Wikio, Paperblog...). On peut penser que je perds des visites, mais en même temps je gagne quelques liens, des referers, et de l'exposition. Difficile donc de savoir si je suis gagnant ou perdant au final, d'autant plus que mon souci premier n'est pas de faire de la page vue (même si je dois bien confesser une petite poussée d'égo quand mes courbes de fréquentation grimpent).
Quelques conseils en complément de ceux de Matt Cutts pour limiter les dégats du scraping, et pourquoi pas en bénéficier :
- Surveillez régulièrement qui republie votre contenu, en faisant des recherches sur vos titres ou sur des extraits courts de votre contenu (en utilisant des guillemets)
- Travaillez votre popularité. Les liens ont une grande importance dans la détermination par Google de la version originale d'un contenu
- Quand vous faites référence à vos pages, utilisez des liens absolus, et non pas des liens relatifs.
- Ne publiez pas en flux intégral (ne marche que pour le scrap des flux RSS)
- Faites en sorte qu'un lien vers votre site automatiquement ajouté à chaque billet dans vos flux RSS (des plugins existent pour Wordpress, celui-ci par exemple)
- Contactez les scrapers pour négocier soit l'arrêt du scrap, soit un scraping partiel suivi d'un lien vers l'URL source. Il y a des scrapers de bonne foi, qui se montrent compréhensifs.
- Rappelez-leur la loi. En particulier les articles L111-1 et L122-4 du Code de la Propriété Intellectuelle.
- S'ils utilisent Adsense, signalez à Google le fait qu'ils scrapent votre contenu en cliquant sur le lien "Annonces Google" d'un de leurs blocs d'annonces, puis sur "Signalez un cas de non-respect du règlement concernant le site ou les annonces que vous venez de voir". Le scrap est moins motivant une fois banni d'Adsense ;)