De retour de l'édition 2007 de W3 Campus, voici une version adaptée de la session "Identifier et corriger ce qui bloque un référencement" que j'ai eu le plaisir de présenter. Pour les lecteurs intéressés par la conférence "Ultimate SEO" à laquelle j'ai également participé, je vous invite à lire ce billet sur l'identification des expressions-clés employées par les utilisateurs. Je profite de ce billet pour remercier à nouveau les organisateurs du séminaire qui ont su faire de celui-ci un évenement à la fois convivial et (très) riche en information, ainsi que le public pour sa sympathie ;)

Introduction

"Identifier et corriger ce qui bloque un référencement" est le lot quotidien du référenceur : on regarde l'existant, on identifie les points bloquants, et on recherche ensuite des solutions et des améliorations.

En matière de référencement naturel, i faut savoir qu'il y a 3 grands leviers que l'on peut activer :

  • Le contenu (le texte).
  • Le contenant (la structure du site, le code).
  • La popularité (l'environnement du site, les liens).

Pour qu'un référencement fonctionne correctement, il faut que tous ces leviers soient activés. Ainsi, un site populaire, riche en contenu mais inaccessible aux moteurs aura un référencement médiocre. Un site accessible, populaire, mais sans contenu texte pertinent aura lui aussi un référencement médiocre. Et un site pourtant accessible, avec un contenu pertinent, mais sans aucun lien pointant vers lui aura une référencement médiocre (spécialement pour les thèmes concurentiels).

Il faut donc toujours avoir à l'esprit ces trois axes : contenu, contenant, et popularité. Et pour identifier ce qui bloque un référencement, il faut s'intéresser encore à ces trois axes : un site pourra souffrir d'un contenu mal optimisé, d'une structure rendant son contenu inaccessible ou le mettant mal en valeur, ou bien souffrir d'un déficit de popularité.

Noms de domaine et redirections

La première chose qui peut bloquer un référencement est d'abord la structure. Il arrive qu'un même site possède plusieurs noms de domaines, par exemple pour se proteger du cyber-squatting ou rester accessibles aux utilisateurs qui font des coquilles. Le problème est que des noms de domaines différents sont censés correspondre à des sites différents du point de vue des moteurs. Deux cas de figure se présentent alors :

  • Soit les différents domaines sont considérés comme des doublons (duplicate content), et sont tous ignorés.
  • Soit plusieurs domaines sont effectivement indexés, et la popularité du site est alors diluée.

Il se peut également que sur certains moteurs, ce soit tantôt un domaine qui ressorte, tantôt l'autre. Dans tous les cas, cela nuit à la visibilité du site...

Comment détecter une mauvaise gestion des domaines ? La commande allintitle:"title_de_la_homepage" de Google permet parfois de repérer les pages indexées par le moteur ayant pour balise <title> le contenu spécifié. Le symptôme d'une mauvaise gestion des domaines se manifeste alors comme plusieurs de vos noms de domaines affichant le même <title> : version avec et sans tirets, avec différents TLD, adresse IP...

Comment corriger ce problème ? Si vous réservez plusieurs noms de domaines pour un site :

  • Ne faites la promotion que d'un seul, ce qui limitera l'indexation des autres.
  • Redirigez les autres domaines vers le domaine principal, via une redirection serveur, de type 301.

N'utilisez que des redirections serveur : ce sont les seule suivies par les moteurs (les redirection à bases de frames 100%, de javascript, ou de balises meta refresh ne sont pas valables). N'utilisez pas de redirections serveurs de type 302, car le risque est que le contenu de la page de destination soit indexées sous l'URL (et donc le domaine) de la page redirigée, puisque la redirection est considérée temporaire.

Fichiers Robots.txt

Le protocole robots.txt sert a restreindre le parcours des sites web par les robots. Il s'agit d'un simple fichier txt, situé à la racine du site ou du sous-domaine. On peut y définir des répertoires ou fichiers à ne pas indexer pour tous les robots, ou désactiver l'accès seulement à des robots spécifiques.

Si ce fichier n'est en général par défaut pas présent sur un site web , il se peut qu'il ait été placé là par un précédent webmaster, où que vous l'ayiez oublié. Si un ou plusieurs moteurs refusent absolument de vous indexer pensez donc à regarder au cas où si ce fichier est présent, et s'il contient ce type de lignes :

User-agent: * Disallow: /

L'exemple ci-dessus interdit par exemple à tous les robots l'indexation du site.

Javascript, AJAX, Flash et images

Aujourd'hui encore, les moteurs de recherche ne sont pas capables d'interpréter correctement ni Javascript, ni les éléments Flash (même si Google commence timidement à extraire de l'information des fichiers Flash). Ils ne lisent pas non plus le contenu des images.

Ces technologies doivent donc être considérées comme bloquantes pour les moteurs, au moins en ce qui concerne le Flash. Javascript, lui, s'il n'est pas interprété par les moteurs peut dans certains cas être utilisé de façon à conserver l'accessibilité du site, tandis que les images significatives peuvent être dotées de l'attribut "alt".

Comment savoir ce que voient (ou pas) les moteurs ? Plusieurs façons :

  • Une 1ère méthode est tout simplement de faire un copié-collé de l'intégralité de la page dans le notepad (sous Windows) à partir du navigateur : On ne verra ainsi que le contenu compréhensible par les moteurs à savoir le contenu texte, et les attributs des images. L'inconvénient de cette méthode est que le texte affiché via javascript sera aussi copié, et que l'on ne voit pas si les liens sont accessibles... Cette méthode, si elle est rapide est donc peu fiable.
  • Seconde méthode : naviguer sur le site avec Firefox et l'extension Webdeveloper, en ayant désactivé Javascript, l'affichage des images, et CSS : On a alors une meilleure idée de l'accessibilité du site, puisque les liens restent cliquables. Mais les éléments Flash reste cependant visibles...
  • Troisième méthode moins simple mais vraiment efficace : naviguer sur le site avec un navigateur texte comme Lynx. Lynx est un navigateur préhistorique, qui ne connait ni les images, ni Javascript, ni Flash, ni CSS, pas même les tableaux. C'est donc le meilleur simulateur de robot qui soit.

Une fois diagnostiqué les points bloquants, que faire ? Il faut mettre en place des alternatives accessibles. Si votre site est 100% Flash, faites une version HTML. Si votre menu est en Flash, faites des liens href alternatifs, éventuellement en pied de page, ou dans le contenu. Si un clip Flash mène vers d'autres pages, doublez-le de liens href vers ces pages. Si vous faites de popups, rendez-les accessibles en utilisant un lien href doté d'un attribut "onclick".

Veillez aussi à utiliser de façon pertinente ces technologies : ce qui est bon pour les moteurs l'est souvent pour les utilisateurs, et inversement. La simplicité est souvent payante, tant en matière de référencement que d'ergonomie.

Formulaires

Les moteurs de recherche ne savent que suivre les liens pour passer d'une page à une autre, et sont incapables de remplir un formulaire. Si l'affichage du contenu dépend d'un formulaire, cela pose donc problème : le contenu du site aura beau être immensément riche, les moteurs seront incapables d'y accéder. C'est d'ailleurs ce qui constitue le fameux "web invisible" : des milliards de pages de qualité, mais cachées derrières des formulaires.

Identifier le problème est plutôt simple : tout contenu accessible uniquement via un formulaire est inaccessible pour les robots.

Comment le résoudre ? Il faut s'assurer que le contenu de la base de données soit accessible également via des liens HTML, qui auront pour URL les pages de résultats du formulaire (ce qui implique d'utiliser la méthode GET pour interroger la base, avec les paramètres dans l'URL).

On peut par exemple faire une arborescence qui soit fonction des éléments du formulaire : pour un site de recherche de biens immobiliers ce sera par exemple une arborescence par nature du bien puis par localisation géographique.

Balisage sémantique

Qu'est-ce que le balisage sémantique ? Les spécifications du HTML comprennent un certain nombre de balises qui ont une fonction "sémantique", càd qu'elle donnent des indications quand au "sens", ou plutôt quand à la fonction des éléments balisés.

  • Les titres et sous-titres devraient ainsi utiliser les balises <h1> à <h6>.
  • Les paragraphes la balise <p>.
  • Les listes et menus les balises <ul> et <ol>.
  • Les emphases la balise <strong> ou <em>.

Ces balises sont prises en compte par les moteurs : un contenu balisé comme un titre se verra donc reconnaître un poids plus fort, parce qu'un titre est censé résumer le contenu qui le suit. Le problème est que les logiciels WYSIWYG, souvent utilisés, ne vont pas insérer ces balises automatiquement. Dreamweaver ne sait pas qu'un titre est un titre... C'est donc à vous de baliser correctement votre contenu.

Comment identifier les éventuels problèmes de balisage ? Naviguez sur le site, toujours avec l'extension Webdeveloper, en ayant activé l'option "display element information", et assurez-vous que les élements sont bien balisés conformément à leur signification au sein du contenu.

Balise Title

Intéressons nous maintenant à ce qui fait réellement le contenu : le premier élément de contenu de votre site est la balise <title>. Cette balise, qui est obligatoire, est importante pour votre référencement, puisque elle est décrit normalement ce dont parle votre page. Les moteurs lui accordent donc une grande importance. Il ne faut pas oublier non plus que la balise <title> est le premier contact qu'a l'internaute avec votre site, puisque c'est son intitulé qui est généralement repris comme lien dans les pages de résultats des moteurs de recherche. C'est donc un élement qu'il faut rédiger avec soin.

Comment identifier les éventuels problèmes de <title> ? Dressez une carte du site avec le logiciel Xenu, et assurez-vous que chaque page possède un <title> pertinent par rapport à son contenu. "Pertinent" signifie ici que chaque page du site possède un title explicite, engageant et riche en mots-clés (sans pour autant devenir une liste). Cette balise devrait comporter idéalement entre 50 et 80 caractères.

Teneur du contenu

Les moteurs de recherche sont avant tout des machines à indexer du texte. Si vous souhaitez être visible sur certaines expressions, vous devez absolument employer ces expressions dans votre contenu (des exceptions existent, mais elles sont marginales). Si vous n'avez pas de contenu texte, ou si celui-ci est insuffisant, vous ne serez pas visible. Et si vous avez du contenu, mais que celui-ci n'est pas en adequation avec les mots-clés tapés par les utilisateurs, vous ne serez pas visible non plus.

Comme identifier si votre contenu bloque votre référencement ?

  • Assurez-vous que vous avez déjà du contenu
  • Assurez-vous que vous parlez le langage de vos utilisateurs. Soyez directs, explicites, favoriser un langage simple et naturel, évitez les jargons.
  • Assurez-vous d'avoir le plus possible de pages mono-thématiques, c'est à dire des pages consacrée à un nombre limité d'expressions-clés gravitant autour d'un thème donné.
  • Vérifiez que vos expressions-clés soient présentes dans vos pages, en particulier dans les zones "chaudes" des pages : la balise <title>, les titres et sous-titres, les paragraphes (le corps du texte), les menus et liens. Ces zones chaudes constituent le contenu primaire, qui doit être optimisé en priorité. A coté de ce contenu primaire, vous pouvez optimiser le contenu secondaire de la page : les balises meta description et meta keywords, les attributs alt, les noms de fichiers et de répertoires.

Popularité

La popularité est un concept imaginé par les moteurs pour départager des pages avec un contenu plus ou moins équivalent au niveau de la pertinence. Concrètement, il s'agit de mesurer la quantité, mais aussi la qualité des liens qui pointent vers une page. L'algorithme PageRank est le plus connu, mais chaque moteur possède en fait son propre indice de mesure de la popularité.

Comment déceler un manque de popularité ? On peut se faire une 1ère idée avec le PageRank affiché par la Googlebar et les operateurs de Google (exemple pour ce site). Pour des résultats plus détaillés, on peut également utiliser les services Google Webmaster Tools et Yahoo Site Explorer.

Si votre site affiche très peu de résultats, ou si votre popularité est nettement inférieure à celle de vos concurrents, alors vous manquez probablement de liens entrants. On peut considérer qu'un site avec un PR<3 (sur sa page d'accueil) est peu populaire, et qu'un site avec un PR de 4 ou 5 est moyennement populaire. Au dela, de 6 à 10, le site commence à vraiment être populaire. Attention cependant : l'échelle du PR étant logarithmique, un site PR4 n'est pas deux fois plus populaire qu'un site PR2.

Comment augmenter sa popularité ? L'idée générale est d'augmenter le nombre de liens (pertinents) pointant vers son site : soumettez donc votre site aux annuaires généralistes, aux annuaires spécialisés, aux sites thématiques, échangez des liens avec des sites proches, mettez votre site en signature sur les forums, mettez votre URL sur vos communiqués de presse, syndiquez votre contenu... Tout lien est bon à prendre tant qu'il fait sens pour l'utilisateur.

Distribuer sa popularité

On parle souvent de la "popularité d'un site", c'est en fait un abus de langage : la popularité est toujours relative à une page, et non à un site. Quand on dit qu'un site est populaire, on parle en fait de la popularité de sa page d'accueil, page qui est en général la plus populaire du site car la plus liée.

Mais cette page d'accueil est par définition une page généraliste : sa popularité ne lui sert donc pas à grand chose. Par contre des pages plus ciblées auront tout à gagner à devenir populaires. Il est donc important pour une visibilité maximale de redistribuer le PageRank pour faire en sorte que toutes les pages du site soient populaires.

Comment détecter et corriger une mauvaise répartition de la popularité ?

  • Assurez-vous que le PR ne décroit pas trop rapidement au fur et à mesure qu'on s'enfonce dans le site.
  • Redistribuez la popularité en mettant en place un réseau dense de liens à l'intérieur du site. L'idée est de réduire le nombre de clics pour accéder aux pages profondes, et de favoriser la remontée vers l'accueil à partir des pages profondes. Plusieurs méthodes sont possibles : chemins de fers, liens dans le contenu, multiplication des liens dans les menus.
  • Essayez d'établir des liens profonds venant de l'extérieur : c'est à dire des liens pointant non pas vers votre domaine ou votre page d'accueil, mais vers les pages profondes de votre site : pages d'accueil de second niveau, pages produits...