Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à Référencement Design et Cie 2.0

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

20/02/2007

La longue traîne en pratique

Si l'on entend régulièrement parler du concept de longue traîne, qu'il s'agisse de vendre des produits sur le web ou d'améliorer sa visibilité dans les moteurs de recherche, les illustrations concrètes de celle-ci restent encore rares.

Je me suis donc interessé à la répartition des mots-clés tapés pour accéder à l'un de mes sites, un annuaire de taille moyenne consacré à la création numérique. A la différence d'un blog, la structure et le contenu d'un annuaire évoluent assez peu, ce qui en fait un site au comportement plus proche de celui d'un site institutionnel ou marchand, et donc plus représentatif.

Voyons maintenant cette répartition (image GIF) : le bargraphe en rouge représente le nombre de visites par mots-clés, tandis que la courbe en bleu représente la part de trafic en pourcents pour les x mots-clés les plus populaires.

On observe bien un phénomène de longue traîne, à savoir un pic de visites pour les requêtes les plus populaires, suivi très rapidement d'une longue suite de mots clés peu populaires, mais dont le trafic cumulé est supérieur au premier groupe. Ainsi, les 5 premiers mots-clés ne représentent que 16% du trafic, les 20 premiers 25%, les 100 premiers 40%, les 250 premiers 50%, les 1000 premiers 65%, les 5000 premiers 81% et les 10000 premiers 87% sur un total de 21568 mots-clés analysés.

Il ne faut donc pas être obnubilé par une poignée de mots-clés : s'ils peuvent constituer un échantillon permettant d'apprécier en partie la visibilité d'un site, il faut toujours garder à l'esprit que la majorité du trafic se fera de toute façon sur des termes moins populaires. Il est donc plus intéressant de produire du contenu de façon à être visible sur une grande variété de mots-clés, que de chercher à optimiser uniquement pour un nombre restreint d'expressions-clés, même si elles sont individuellement les plus populaires. Ce qui n'empêche pas d'optimiser son site également pour ces expressions stratégiques...

Google : Retour à la normale pour la commande "site:"

J'avais évoqué il y a environ un mois un changement de comportement de la commande "site:" sur Google. Depuis quelques jours il semble que tout soit rentré dans l'ordre. La commande "site:" affiche désormais bien les pages du seul sous-domaine spécifié.

19/02/2007

L'écriture web : buzz de l'année ?

L'écriture pour les utilisateurs et pour les moteurs serait-elle en passe de devenir la nouvelle "hype" du référencement en 2007 ? C'est bien possible...

On ne peut que constater que les signaux se multiplient : des tables rondes sont organisées sur le sujet, des agence publient des livres blancs sur la relation entre référencement et contenu, la blogosphère en discute ici et (et aussi ici), et Abondance consacre même dans sa lettre d'information une série d'articles à l'écriture pour les moteurs.

Cet interêt soudain pour le contenu est bienvenu. L'aspect éditorial du référencement a en effet été, et reste encore très souvent négligé. Certains s'inquiètent, parfois à juste raison, des possibles effets de bord de cette popularisation de l'optimisation par le contenu : pour les journalistes, les contraintes de l'écriture web peuvent être ressenties comme une atteinte à leur créativité. Pour les observateurs du monde du référencement, il n'est pas exclu que l'on assiste à un développement du "contenu pour le contenu", qui ne serait finalement qu'une nouvelle forme de spam. Cela est possible.

Mais les plus malins auront compris qu'un contenu rédigé avec soin est gagnant sur tous les plans : utilisabilité, efficacité de la communication, et référencement. Il faut aussi voir au delà des contraintes : un écrit original dans la forme peut parfois avoir un potentiel de visibilité plus grand qu'un écrit strictement descriptif, par les liens spontanés qu'ils va générer. Bien assimilées, les contraintes deviennent ainsi des opportunités...

15/02/2007

Une méthode pour trouver les bons mots-clés

En matière de communication web, il est essentiel peut-être plus qu'ailleurs de parler le langage de l'utilisateur : vous améliorez ainsi non seulement votre visibilité dans les moteurs de recherche, mais vous vous assurez également une communication plus efficace auprès des utilisateurs.

Comment alors identifier les expressions-clés réellement utilisées par vos visiteurs potentiels ? Google et Yahoo proposent certes des outils de suggestion de mots-clés, mais les résultats de ces outils sont parfois altérés par les interrogations automatiques des moteurs. Voici donc une méthode complémentaire, basée uniquement sur l'expression des utilisateurs. Il s'agit avec cette méthode non pas de trouver les termes les plus recherchés sur les moteurs, mais d'identifier les expressions les plus utilisées par un groupe d'utilisateurs, et de détecter éventuellement des tendances.

1ère étape : Identifiez une communauté liée à votre thématique, par exemple les produits de régime. Pour ce thème, j'ai choisis les forums Doctissimo qui sont parmi les plus actifs sur ce sujet.

2ème étape : Collectez un nombre important de pages du forum, avec l'aide d'un outil comme HTTrack. Respectez cependant le site en espaçant vos requêtes, et en limitant la bande passante utilisée pour la collecte. Veillez également à la qualité des pages collectées, en ne téléchargeant pas les pages "citer" et "répondre". J'ai ainsi collecté environ 4000 pages de discussion que j'ai converti en fichiers .txt grâce à Htmlastext. Plus le corpus sera important, plus il sera fiable.

3ème étape : Procédez à l'analyse de ce corpus à l'aide du logiciel d'analyse linguistique Antconc. Ses fonctionnalités sont nombreuses, mais celles qui nous intéressent le plus sont le concordancier et l'analyse des "clusters" (amas de mots) qui permet de rechercher la fréquence des expressions de n mots contenant le mot-clé de votre choix, et même de rechercher les n-grammes, c'est-à-dire l'intégralité des expressions de n mots sans spécifier de mot-clé.

Importez votre corpus via le menu "File/Open dir", cliquez sur l'onglet "Clusters", définissez une taille de cluster entre 2 (Min. Size) et 5 (Max. Size) afin d'identifier les expressions composées de 2 à 5 mots, entrez un mot-clé ou une expression régulière, comme "r?gime+", cliquez sur "Start" et... patientez, l'analyse pouvant être longue. Vous devriez obtenir une liste d'expressions, qu'il vous faudra ensuite dégrossir à la main en vous aidant du concordancier, en supprimant le bruit et les aberrations, comme les mots-clés contenus dans les signatures de membres très actifs. Au final, on obtient une liste de ce type sur le thème "régime", classée par fréquence décroissante :

  • Regime dukan
  • Régime HP
  • Régime dukan
  • Régime hypocalorique
  • Regime WW
  • Régime soupe
  • Régime hyperprotéiné
  • Régime équilibré
  • Régime protéiné
  • Régime WW
  • Regime soupe
  • Regime pates
  • Regime hyperproteiné
  • Régime soupe aux choux
  • Régime des protéines pures
  • Régime hypo
  • Regime equilibré
  • Regime hypocalorique
  • Régime hyper protéiné
  • Regime chocolat

Sur le thème "perdre", on obtient les expressions suivantes :

  • Perdre du poids
  • Perdre des kilos
  • Perdre quelques kilos
  • Perdre un peu de poids
  • Perdre du ventre
  • Perdre un kilo

Etc.

7/02/2007

Analysez vos liens avec Google

Le service d'outils pour webmasters Google s'enrichit de nouvelles fonctionnalités, avec l'apparition d'une rubrique "liens" dans son interface (accessible uniquement une fois que Google aura vérifié que vous êtes bien le gestionnaire du site).

L'outil propose ainsi l'accès pour chacune de vos pages indexées à une liste des liens externes ou internespointant vers ces pages, avec mention de la date de la dernière indexation. Chose très intéressante, l'ensemble des données est téléchargeable au format CSV, ce qui facilite les traitements et analyses ultérieures.

Attention cependant : bien que la quantité de données soit infiniment supérieure à celle retournée par la commande "link:" (56018 liens pour ce domaine par exemple), l'outil ne garantit pas que tous les liens y soient présents, et limite à 1 million le nombre maximum de résultats retournés. D'autre part, il semble que les données ne soient pas mises à jour en temps réel : ainsi à la date d'aujourd'hui (7 février), je n'ai pas pu trouver de liens indexés postérieurement au 15 janvier.

Ces limitations évoquées, il s'agit néanmoins d'un excellent outil, supérieur à Yahoo Site Explorer en ce qui concerne le nombre de liens retournés et les possibilité d'export (limitées à 1000 liens chez Yahoo).