En matière de communication web, il est essentiel peut-être plus qu'ailleurs de parler le langage de l'utilisateur : vous améliorez ainsi non seulement votre visibilité dans les moteurs de recherche, mais vous vous assurez également une communication plus efficace auprès des utilisateurs.

Comment alors identifier les expressions-clés réellement utilisées par vos visiteurs potentiels ? Google et Yahoo proposent certes des outils de suggestion de mots-clés, mais les résultats de ces outils sont parfois altérés par les interrogations automatiques des moteurs. Voici donc une méthode complémentaire, basée uniquement sur l'expression des utilisateurs. Il s'agit avec cette méthode non pas de trouver les termes les plus recherchés sur les moteurs, mais d'identifier les expressions les plus utilisées par un groupe d'utilisateurs, et de détecter éventuellement des tendances.

1ère étape : Identifiez une communauté liée à votre thématique, par exemple les produits de régime. Pour ce thème, j'ai choisis les forums Doctissimo qui sont parmi les plus actifs sur ce sujet.

2ème étape : Collectez un nombre important de pages du forum, avec l'aide d'un outil comme HTTrack. Respectez cependant le site en espaçant vos requêtes, et en limitant la bande passante utilisée pour la collecte. Veillez également à la qualité des pages collectées, en ne téléchargeant pas les pages "citer" et "répondre". J'ai ainsi collecté environ 4000 pages de discussion que j'ai converti en fichiers .txt grâce à Htmlastext. Plus le corpus sera important, plus il sera fiable.

3ème étape : Procédez à l'analyse de ce corpus à l'aide du logiciel d'analyse linguistique Antconc. Ses fonctionnalités sont nombreuses, mais celles qui nous intéressent le plus sont le concordancier et l'analyse des "clusters" (amas de mots) qui permet de rechercher la fréquence des expressions de n mots contenant le mot-clé de votre choix, et même de rechercher les n-grammes, c'est-à-dire l'intégralité des expressions de n mots sans spécifier de mot-clé.

Importez votre corpus via le menu "File/Open dir", cliquez sur l'onglet "Clusters", définissez une taille de cluster entre 2 (Min. Size) et 5 (Max. Size) afin d'identifier les expressions composées de 2 à 5 mots, entrez un mot-clé ou une expression régulière, comme "r?gime+", cliquez sur "Start" et... patientez, l'analyse pouvant être longue. Vous devriez obtenir une liste d'expressions, qu'il vous faudra ensuite dégrossir à la main en vous aidant du concordancier, en supprimant le bruit et les aberrations, comme les mots-clés contenus dans les signatures de membres très actifs. Au final, on obtient une liste de ce type sur le thème "régime", classée par fréquence décroissante :

  • Regime dukan
  • Régime HP
  • Régime dukan
  • Régime hypocalorique
  • Regime WW
  • Régime soupe
  • Régime hyperprotéiné
  • Régime équilibré
  • Régime protéiné
  • Régime WW
  • Regime soupe
  • Regime pates
  • Regime hyperproteiné
  • Régime soupe aux choux
  • Régime des protéines pures
  • Régime hypo
  • Regime equilibré
  • Regime hypocalorique
  • Régime hyper protéiné
  • Regime chocolat

Sur le thème "perdre", on obtient les expressions suivantes :

  • Perdre du poids
  • Perdre des kilos
  • Perdre quelques kilos
  • Perdre un peu de poids
  • Perdre du ventre
  • Perdre un kilo

Etc.