La duplication de contenu, ou duplicate content, peut se définir comme le fait pour un contenu d'être accessible via plusieurs URLs. Le duplicate content est une notion à dimensions variables : la duplication peut être stricte, ou bien partielle (on parle parfois de near-duplicate ou de similarité). Les moteurs de recherche eux-même ne font pas forcément de distinction claire entre les deux types, tant dans leur brevets que dans leurs directives aux webmasters.

Dans cet article, j'adopterai une définition restreinte du duplicate content, en considérant qu'il y a duplication de contenu quand le contenu dupliqué est strictement le même, à l'octet près (ou à quelques octets près), et que la duplication émane du site à l'origine du contenu.

En tant que bases de données, les moteurs de recherche cherchent à éviter les doublons, qui encombrent inutilement leurs bases. Il est donc important de s'assurer que son propre contenu ne soit pas éliminé. Mais il y a plus encore : en ayant un même contenu accessible via plusieurs URLs, on dilue en fait les informations relatives à l'environnement des pages comme le PageRank : une partie de ce PR va être attribuée à l'URL A, et l'autre partie à l'URL B. Cela n'aide évidemment pas au référencement puisque aucune des pages ne va bénéficier de l'intégralité du PageRank. Dans cet article, nous allons voir quelques sources fréquentes de duplicate content, ainsi que les moyens de l'éviter.

Identifiants de session passés dans les URLs

Les identifications de session sont éminemment pratiques quand il s'agit de suivre un utilisateur tout au long de sa consultation d'un site. Passés dans l'URL, ils sont cependant très dangereux, puisque une même page peut potentiellement être indexée indéfiniment du fait de la création d'une nouvelle session à chaque visite du robot. Le robot pourrait donc indexer toutes ces URLs, qui correspondent en fait à un même contenu :

  • http://www.site.com/page.php&sid=00000001
  • http://www.site.com/page.php&sid=00000002
  • http://www.site.com/page.php&sid=00000003

Dans la pratique, les moteurs pourront soit ignorer les pages avec des paramètres ressemblant à de tels identifiants, soit indexer un grand nombre de pages pour ensuite les éliminer, soit indexer un petit nombre de pages qui resteront dans l'index, au moins un certain temps. Dans tous les cas, aucune de ces possibilités n'est souhaitable en ce qui concerne le référencement. Préférez donc une gestion des sessions utilisant les cookies et une base de données, à moins que les pages n'aient pas vocation à être indexées.

Inversion de l'ordre des paramètres dans les URLs

Une URL dynamique peut comporter plusieurs paramètres :

http://www.site.com/catalogue.php?gamme=x&produit=y

Or il se peut que par maladresse votre site comporte à la fois des liens de la forme /catalogue.php?gamme=x&produit=y et /catalogue.php?produit=y&gamme=x. Du point de vue de l'utilisateur, il s'agira bien d'une seule et même page, et le rendu sera correct dans les deux cas. Du point de vue des moteurs, il s'agira de deux URLs distinctes. Assurez-vous donc que la structure de vos URLs soit consistante tout au long du site.

Canonisation des domaines

L'usage courant veut qu'une URL commence souvent par "www". Mais il ne s'agit que d'une convention : en fait le "www" n'est qu'un sous-domaine du domaine principal, et il n'est pas rare qu'un site soit accessible avec ou sans le préfixe www. On risque alors de se retrouver avec des liens pointant tantôt vers "site.com", tantôt vers "www.site.com". Pire : si vos liens sont codés en relatif, toutes vos URLs courent le risque d'être victimes de duplicate content ! Heureusement, les moteurs sont de plus en plus intelligents et gèrent relativement bien ce problème. Mais il ne sont jamais aussi intelligents qu'on pourrait le souhaiter... Aussi prenez les devants en choisissant un domaine principal et en redirigeant l'autre version vers le domaine principal, via une redirection 301 (permanently moved).

Noms de domaines multiples

Il est techniquement possible d'afficher un même site sur plusieurs domaines, par exemple site.fr et site.com. Procéder de la sorte cependant constitue de la duplication de contenu. S'il est pertinent de réserver plusieurs noms de domaines pour se préserver du cyber-squatting, choisissez de n'utiliser qu'un seul domaine par contenu et redirigez les autres domaines vers le domaine principal, via une redirection 301.

Mauvais gestion de l'URL rewriting

La mise en place d'un système de récriture d'URL sur un site existant peut aussi être à l'origine de duplicate content si un système de redirection n'a pas été mis en place. En effet, en l'absence de redirection (301), les anciennes URLs continueront d'être accessibles. Chaque contenu sera donc visible sur deux URLs : l'URL d'origine et l'URL réécrite. Assurez-vous également que votre système de réécriture ne permette pas d'accéder à un même contenu via plusieurs URLs différentes.