Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à Référencement Design et Cie 2.0

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

6/07/2007

Jouer avec le clustering des résultats Google

A lire sur Search Engine Land, un article très intéressant de Stephan Spencer proposant une méthode pour manipuler les doubles liens parfois affichés par Google.

L'affichage de ces doubles liens, appelé "clustering", se produit lorsque deux pages d'un site apparaissent dans une même page de résultats. Au lieu de faire apparaître les deux liens à deux endroits différents, par exemple en 4ème et 10ème position, Google les regroupe et les place en 4ème et 5ème position, en indentant le second résultat (exemple pour ce blog).

Pour retrouver la "vraie" position du second lien, il suffit de demander à Google d'afficher un nombre de résultats inférieur au nombre affiché par défaut (10), en ajoutant à l'URL de la page de résultats le paramètre "&num=9". Si cela ne marche pas, il faut essayer les paramètres "&num=8", "&num=7" etc. On voit bien que pour la requête "blog référencement", le lien "L'ex DG de Google France a son blog" est en réalité positionné en 10ème position, puisque en deuxième page, chaque page affichant 9 liens.

Le fonctionnement du clustering expliqué, que peut-on faire pour affecter celui d'un concurrent ? Ce que Stephan Spencer propose, c'est de faire en sorte que les deux liens du concurrent ne soient plus sur la même page : si on parvient à faire passer le second lien du concurrent de la 10ème position à la 11ème, il n'y aura alors plus de clustering. Cela est possible par exemple en aidant la 11ème page à passer en 10ème position. On peut également essayer de faire en sorte que deux de ses propres pages figurent dans la même page pour bénéficier du clustering...

29/06/2007

Un lien entre branding et pertinence perçue des moteurs de recherche

Décidemment, l'être humain est loin d'être rationnel : selon une étude (PDF) présentée récemment au CIH 2007, la pertinence perçue des pages de résultats des moteurs de recherche serait affectée par la marque du moteur associé à ces pages.

Pour vérifier leur hypothèse, les auteurs de l'étude ont demandé à 32 participants d'évaluer la pertinence de 4 pages de résultats originellement issues de Google, mais "rebrandées" aux couleurs de quatres moteurs : Google, MSN, Yahoo et AIRS, un moteur fictif inventé pour l'occasion.

Les résultats de recherches étant strictement les mêmes, les moteurs auraient dû en toute logique recueillir des scores de pertinence similaires. Au lieu de ça, les auteurs ont constaté un écart de pertinence perçue de 25% entre les moteurs. C'est Yahoo qui a été jugé globalement le plus pertinent, avec un score de pertinence de 42%, suivi de Google avec un score de 36% (soit la moyenne de l'ensemble des moteurs) et de MSN avec un score de 34%. Le moteur fictif AIRS a recueilli quant à lui un score de 32%.

La perception de la marque affecte donc bien la perception de la pertinence, ce que semble confirmer l'analyse qualitative : certains utilisateurs jugent ainsi les résultats de recherche AOL "inférieurs" alors que ceux-ci sont fournis par Google. Moralité : si vous ne parvenez pas à améliorer votre pertinence, travaillez votre branding...

SEO will never die

Il se trouve régulièrement des prophètes pour annoncer l'apocalypse imminente du référencement naturel. Autrefois, c'était les liens sponsorisés qui étaient censés tuer le référencement. Puis ce furent les améliorations sucessives des algorithmes des moteurs. Puis la personnalisation des résultats. Aujourd'hui, ce serait pour certains la recherche universelle prônée par Google et Ask...

S'il y avait une révélation à faire ("révélation" étant le sens original de "apocalypse" après tout), c'est que le référencement n'est pas prêt de disparaître : les pratiques peuvent être amenées à évoluer, mais tant qu'il y aura des outils de recherche et un interêt à y figurer, il y aura des gens pour analyser le fonctionnement de ses outils et travailler à l'amélioration de la visibilité des sites dont ils ont la charge.

Les moteurs agrègent les contenus de divers bases de données ? Les référenceurs travailleront alors en parallèle sur ces différentes bases. En fait c'est déjà le cas. L'optimisation des vidéos pour le référencement est déjà possible par le tagging et par des systèmes de meta données comme Media RSS. Il est possible depuis longtemps déjà de travailler sur la visibilité des images grâce à l'attribut alt et aux noms de fichiers. RSS s'indexe facilement. Quand aux actualité, l'optimisation se fait surtout par le contenu. Bref, peu importe le contenu, il est toujours possible de travailler sur sa trouvabilité.

La seule chose qui pourrait tuer le référencement : la disparition de son ecosystème, c'est à dire les outils de recherche. Hypothèse improbable...

27/06/2007

Près de 90% des utilisateurs utilisent le mode de recherche par défaut de Google

On se doutait intuitivement que les internautes ignoraient la plupart du temps les options de recherche avancées des moteurs. C'est désormais prouvé : selon une étude menée par la société de mesure d'audience Seelog, environ 90% des recherches faites sur Google le seraient avec l'option "Web", qui est le mode de recherche activé par défaut. Les recherche sur les "Pages francophones" et les "Pages : France" se partageraient équitablement les 10% restant.

Voila qui confirme encore une fois "le pouvoir des valeurs par défaut", et soulève des doutes quant à la complexification des interfaces des moteurs, au moins pour le grand public.

15/06/2007

Devenez Search Profiler !

La recherche sur le web n'a plus de secrets pour vous ? Vous vous sentez l'âme d'un Gil Grissom ? Devenez Search Profiler !

Lancé par l'agence de Search Marketing CVFM, le concours "Search Profiling" vous propose de dresser le profil le plus complet possible d'un utilisateur à partir de ses recherches sur le web, en se basant sur les données accidentellement diffusées par AOL en août 2006. But de l'opération (en plus de générer du buzz) : montrer comment les moteurs peuvent cibler un utilisateur, et sensibiliser les internautes sur le fait que leurs recherches peuvent en dire long sur leur vie privée...

Une belle initiative, à laquelle j'avais d'ailleurs déjà pensé il y a quelques temps, et dont j'avais même discuté avec David lors d'une rencontre Blog en Nord si je me souviens bien ;)

25/05/2007

Stratégie, tactique et Search Marketing

Dave Pasternack s'insurge dans un article sur DM News de l'emploi abusif du terme "stratégie" en matière de Search Marketing alors qu'il est question le plus souvent, selon lui, de "tactique".

La stratégie est selon le Trésor de la Langue Française, "un ensemble d'actions coordonnées, d'opérations habiles, de manœuvres en vue d'atteindre un but précis (...) une manière d'organiser, de structurer un travail, de coordonner une série d'actions, un ensemble de conduites en fonction d'un résultat. Pour le Littré, la stratégie est "l'art de préparer un plan de campagne, de diriger une armée sur les points décisifs ou stratégiques, et de reconnaître les points sur lesquels il faut, dans les batailles, porter les plus grandes masses de troupes pour assurer le succès".

La tactique, quant à elle est "l'art d'utiliser les meilleurs moyens pour atteindre un certain objectif; l'ensemble de ces moyens" et designe aussi la "technique pour appliquer une stratégie définie, qui combine, en vue d'un maximum d'efficacité et en fonction des circonstances, tous les moyens et formes de combat utilisables" (Trésor de la Langue Française). "La tactique exécute les mouvements qui sont commandés par la stratégie" (Littré).

Pour certains, la tactique est l'art des moyens (le "comment"), et la stratégie celui des fins (le "quoi").

Qu'en est-il du Search Marketing ? Il me semble que l'on y retrouve tout aussi bien des éléments stratégiques que tactiques : par exemple en ce qui concerne le référencement naturel, le choix de porter en priorité ses efforts sur la popularité d'un site plutôt que sur son contenu peut être qualifié de stratégique, car il s'agit d'une orientation globale. Le choix des techniques pour générer ces liens (soumissions aux annuaires, marketing viral, jeux concours, achat de liens...) sera lui tactique. Mais tout est question d'échelle : au niveau de la stratégie globale de communication d'une marque, le search marketing peut être considéré comme un élement tactique.

Qu'en pensent les stratèges et tacticiens ?

23/05/2007

A quand Google Guru ?

Dans une interview accordée au Financial Times, Eric Schmidt décrit à quoi pourrait ressembler Google dans quelques années : "Nous n'en somme qu'au tout début en termes de capacité d'information que peut contenir Google. Les algorithmes vont continuer de progresser, en particulier la personnalisation. Le but est de permettre aux utilisateurs Google de poser des question telles que 'que dois-je faire demain ?' ou 'quel job devrais-je choisir ?' (...) Actuellement, nous ne pouvons même pas répondre aux questions les plus basiques, parce nous n'avons pas assez de données sur vous. C'est un point clé pour l'expansion de Google".

On connaissait le mantra "Don't be evil", voici venir "Om namo Guru Google"...

11/05/2007

Exalead enchaîne les nouveautés

Le moteur de recherche français Exalead est en forme : en un peu plus d'un mois, ce ne sont pas moins de 3 nouveaux services de recherche qui ont été lancés, ainsi que plusieurs améliorations des services existants, comme la restriction de la recherche aux blogs et forums, et l'affichage de liens d'actualités pour certaines recherches.

Premier de cette série, le service de recherche sur Wikipedia se positionne comme une alternative intéressante au moteur de recherche standard de Wikipedia, plutôt spartiate et peu efficace. Exalead permet une recherche exploratoire, en proposant des termes associés à la requêtes, et en affichant les categories d'appartenance et noms de personnalités relatives aux articles affichés.

La nouvelle version du moteur de recherche d'images s'avère à mon avis moins convainquante : Si selon Exalead environ 2 milliards d'images ont été indexées, les moteurs de recherche d'images Google ou Yahoo affichent systématiquement un plus grand nombre de résultats, ce qui réduit l'interêt de la solution Exalead. Le filtre "visage" me paraît anecdotique : quand on recherche une personnalité, il y a en général peu d'ambiguité sur les mots-clés. Mais pourquoi pas. Reste que le moteur de recherche d'images Exalead propose toujours des filtres intéressants comme la recherche en fonction de la résolution ou de l'orientation, et des opérateurs avancés de recherche.

Le moteur de recherche vidéo, dernier service en date, est lui plutôt une réussite. Exalead indexe les meta-donnée des vidéos hébergées par Youtube, Dailymotion, Metacafe, Kewego, iFilm et par la plateforme de téléchargement payant Vodeo (Exalead étant semble-t-il affilié, les liens Vodeo affichant dans leur URL un "partid=7611"). Un nuage de tags permet là encore de préciser la recherche, et il est également possible de chercher en fonction de la durée des vidéos.

3/05/2007

La classe "robots-nocontent" est-elle pertinente ?

Décidemment, il semble que les moteurs de recherche demandent une participationde plus en plus active des webmasters dans l'amélioration de leurs pages de résultats : alors que Google demande déjà aux webmasters de juger de la valeur des liens sur leurs sites via l'attribut "nofollow" (contredisant au passage sa devise "make pages for users, not for search engines"), Yahoo propose désormais d'empêcher l'indexation de certaines parties du contenu grâce à la classe "robots-nocontent".

Je trouve l'initiative plutôt maladroite : d'abord, on ne sait pas quelles seront les conséquences d'une balise mal fermée : l'intégralité du contenu sera-t-elle alors considérée comme étant à ne pas indexer?

D'autre part, c'est le travail des moteurs que de décider quel contenu est intéressant, et lequel ne l'est pas. Ce qui est intéressant pour les utilisateurs l'est à priori pour les moteurs, alors pourquoi limiter l'indexation de contenus pourtant visibles par les utilisateurs ?

Enfin, c'est potentiellement une occasion suplémentaire de manipuler les résultats et de tromper les utilisateurs. En voici un exemple (non testé cependant) :

<p>Winnie l'ourson est <span class="robots-nocontent">un pervers lubrique</span><span style="display: none">un petit ours jaune</span> qui aime se faire <spanclass="robots-nocontent">donner la fessée par maitresse Miranda</span><span style="display: none">des tartines de miel</span>.</p>

Le contenu se lequel Yahoo basera sa recherche et fondera sa description sera "Winnie l'ourson est un petit ours jaune qui aime se faire des tartines de miel", tandis que l'utilisateur innocent verra en réalité "Winnie l'ourson est un pervers lubrique qui aime se faire donner la fessée par maitresse Miranda"...

27/04/2007

Une émission spécial référencement sur Witamine

Bien qu'utilisant peu les podcasts, j'ai apprécié l'interview de David Degrelle, PDG de 1ère Position sur Witamine, l'emission radio dédiée aux webmasters. David y parle de référencement, de longue traîne, des différents types de prestations, de l'échec des associations de référenceurs...

Cliquez ici pour télécharger l'émission au format MP3 (50Mo)

24/04/2007

Comprendre et optimiser les Sitelinks Google

Apparus pour la première fois sur Google en juillet 2005, les Sitelinks sont des liens additionnels affichés en dessous de la description de certains sites lorsqu'ils apparaissent en première position, pour certaines requêtes (ex : recherche sur "Webmaster Hub").

Ces liens permettant au site de se distinguer, il m'a semblé intéressant de tenter de comprendre leur fonctionnement, et éventuellement de proposer des pistes pour les faire apparaître et les optimiser.

Ce qu'en dit Google

"Ces liens sont appelés Sitelinks. Si par exemple vous effectuez une recherche sur Stanford, le premier résultat contient des liens vers d'autres pages du même site, sous le résultat de recherche habituel. Cette fonctionnalité Sitelinks propose des liens vers les pages intérieures des sites qui sont susceptibles d'intéresser les utilisateurs. Les liens étant générés automatiquement, nous ne sommes pas en mesure de les ajouter manuellement pour des sites spécifiques de notre index ou de modifier les liens qui apparaissent".

Quand les Sitelinks s'affichent-ils ?

La rumeur veut que l'affichage des Sitelinks soit la marque du Trustrank. Cette hypothèse n'a cependant pas de fondement valable, puisque l'on ne dispose d'aucun moyen pour connaître le Trustrank d'un site. Et le fait que certains sites X affichent des Sitelinks fait fortement douter de l'influence du "trust" en ce qui concerne les Sitelinks...

Ce que l'on observe, c'est que les Sitelinks s'affichent uniquement quand le site est premier sur la requête, et quand celui-ci est considéré de façon quasi certaine par Google comme le site recherché pour cette requête. Les recherches sur les noms de marques sont donc celles qui affichent le plus fréquemment des Sitelinks, sauf lorsque le nom de la marque est ambigu, par exemple "Apple". Dans de rares cas, certains sites affichent de Sitelinks sur des requêtes génériques lorsqu'ils bénéficient de nombreux liens ayant pour intitulé la requête (ex : glaces.org pour la requête "sorbet").

Une observation attentive des Sitelinks et l'étude du brevet décrivant le système laissent à penser que l'affichage des Sitelinks est lié au comportement des utilisateurs, à la fois sur les pages de résultats Google, et sur le site. Un trafic suffisant est donc nécessaire pour obtenir les Sitelinks. Par contre, le PageRank ne semble pas intervenir.

Le nombre de Sitelinks affiché n'est pas fixe : le nombre de liens affichés peut varier entre 3 et 4 (on a plus rarement parfois observé 2 liens).

Quelles URLs sont choisies ?

Google affirme afficher les URLs "les plus susceptibles d'intéresser l'utilisateur". Comme dit plus haut, cet intérêt de l'utilisateur est estimé en fonction de l'interaction de celui-ci avec le site et avec les pages de résultats Google. Il en découle que les Sitelinks affichés sont ceux qui reçoivent un grand nombre de visites : ce peuvent être les pages les plus fréquemment accédées sur le site, comme celles les plus cliquées à partir des pages de résultats, car très bien référencées (ex : Darty). On observe également que les clics sur les Sitelinks sont systématiquement trackés : il est donc probable que ceux-ci s'affinent avec le temps.

Les liens retenus n'ont pas forcément à être accessibles directement à partir de la page d'accueil des sites, il peut s'agir de pages profondes, mais populaires (ex : le Sitelink "Noms de domaine et hébergement" de Webmaster Hub). Il peut également s'agir de sous-domaines du domaine principal (ex : Sitelinks du Parti Socialiste).

Quels intitulés pour les Sitelinks ?

L'intitulé des Sitelinks reprend le plus souvent le texte des liens, la balise <title> de la page, parfois l'attribut alt des liens image (ex : Sitelink "Le FN" du site du Front National). Dans tous les cas, le texte des Sitelinks ne dépasse jamais les 35 caractères. La reprise des intitulés des liens et des <title> n'est pas forcément intégrale : il semblerait que Google filtre parfois les noms de marques des intitulés et les textes génériques, peut-être par un système de reconnaissance des entités nommées (ex : Speedy avec le Sitelink "Pneu").

Le choix de Google de reprendre soit le texte des liens, soit la balise <title> n'est pas bien clair : peut-être Google estime-t-il que l'un des deux est plus descriptif, en se basant sur le contenu. Une autre hypothèse est que Google se base sur l'origine des clics pour déterminer quel titre adopter : un plus grand nombre de clics via les pages de résultats pourrait favoriser la reprise de la balise <title> puisque c'est cette balise qui est utilisée comme lien dans les pages de résultats, et qui motive généralement les clics des utilisateurs. Ceci n'est qu'une hypothèse.

Quelles pistes pour l'optimisation des Sitelinks ?

Le principe de fonctionnement des Sitelinks, fortement basé sur le comportement des utilisateurs, fait qu'il est difficilement envisageable de les contrôler. Mais il est possible de les favoriser, et de les influencer :

  • Arrangez-vous pour être premier sur votre marque et générer un trafic suffisant pour votre site.
  • Utilisez des intitulés de liens courts et explicites. Vous éviterez ainsi les Sitelinks du type "cliquez-ici" ou "valider".
  • Si vous voulez contrôler de façon sûre le texte du Sitelink, utilisez le même texte pour les ancres des liens et pour la balise <title> de la page.
  • Faites en sorte que vos liens stratégiques se démarquent visuellement, afin d'augmenter leur taux de clics et de les transformer en Sitelinks. Optez pour un design persuasif.
  • Si vous faites de l'emailing, utilisez des liens directs vers les pages à promouvoir au lieu de renvoyer sur la page d'accueil, toujours dans le but de créer du trafic sur ces pages.
  • Evitez d'utiliser des technologies qui font obstacle aux moteurs : liens javascript, Flash, etc.

A lire également (en anglais) :

Google's Listings of Internal Site Links for Top Search Results
Traffic Determines Google UI Snippet Links
How Does Google Create Multi Link Listings?

17/04/2007

Moteurs de re-recherche

Point de coquille dans le titre de ce billet : selon une étude (PDF) menée conjointement par Jaime Teevan (MIT), Eytan Adar (Université de Washington), Rosie Jones et Michael Potts (Yahoo Research), une part non-négligeable des recherches sur les moteurs serait en fait des "re-recherches".

Dans cette étude portant sur le comportement de 114 utilisateurs sur une période d'un an, les chercheurs ont ainsi mis en évidence que 40% des requêtes ont aboutit à un clic sur un lien déjà accédé auparavant par le même utilisateur, et que 28% de l'ensemble total des clics l'étaient sur des liens déjà cliqués au moins une fois par l'utilisateur. Tous ces indicateurs montrent donc une forte tendance à rechercher de l'information déjà accédée auparavant.

A voir également, ce poster complémentaire à l'étude.

16/04/2007

Google : l'achat de liens définitivement vu comme du spam

Matt Cutts s'était déjà exprimé à plusieurs reprises sur le fait que l'achat et la vente de liens pouvaient être considérés par Google comme du spam. Désormais, il est possible de dénoncer de tels liens directement via le système de spam report, en incluant le mot-clé "paidlink" dans le sujet et le corps du message.

J'avoue être assez perplexe face à cette annonce : le simple fait qu'un lien soit acheté déjà n'en fait pas un lien non pertinent, et je ne vois pas pourquoi il faudrait renoncer aux bénéfices d'un lien en terme de référencement (en se soumettant à l'attribut nofollow), sous pretexte qu'on a payé pour l'obtenir. Tout dépend du contexte.

Le spam report se comprend parfaitement dans le cas où un utilisateur tombe sur une page non pertinente, ou "offensante". Mais concernant les liens payés ? L'utilisateur lambda les ignorera probablement, ne sachant pas qu'ils sont payés. Qui dénoncera alors les liens payés ? Probalement les concurrents, et les zelotes anti-spam. Avant de demander à la communauté un effort pour résoudre une situation qu'il a lui-même créé, il serait peut-être bon que Google regarde (et réduise) sa propre contribution à la prolifération du spam...

6/04/2007

Identifier et corriger ce qui bloque un référencement

De retour de l'édition 2007 de W3 Campus, voici une version adaptée de la session "Identifier et corriger ce qui bloque un référencement" que j'ai eu le plaisir de présenter. Pour les lecteurs intéressés par la conférence "Ultimate SEO" à laquelle j'ai également participé, je vous invite à lire ce billet sur l'identification des expressions-clés employées par les utilisateurs. Je profite de ce billet pour remercier à nouveau les organisateurs du séminaire qui ont su faire de celui-ci un évenement à la fois convivial et (très) riche en information, ainsi que le public pour sa sympathie ;)

Introduction

"Identifier et corriger ce qui bloque un référencement" est le lot quotidien du référenceur : on regarde l'existant, on identifie les points bloquants, et on recherche ensuite des solutions et des améliorations.

En matière de référencement naturel, i faut savoir qu'il y a 3 grands leviers que l'on peut activer :

  • Le contenu (le texte).
  • Le contenant (la structure du site, le code).
  • La popularité (l'environnement du site, les liens).

Pour qu'un référencement fonctionne correctement, il faut que tous ces leviers soient activés. Ainsi, un site populaire, riche en contenu mais inaccessible aux moteurs aura un référencement médiocre. Un site accessible, populaire, mais sans contenu texte pertinent aura lui aussi un référencement médiocre. Et un site pourtant accessible, avec un contenu pertinent, mais sans aucun lien pointant vers lui aura une référencement médiocre (spécialement pour les thèmes concurentiels).

Il faut donc toujours avoir à l'esprit ces trois axes : contenu, contenant, et popularité. Et pour identifier ce qui bloque un référencement, il faut s'intéresser encore à ces trois axes : un site pourra souffrir d'un contenu mal optimisé, d'une structure rendant son contenu inaccessible ou le mettant mal en valeur, ou bien souffrir d'un déficit de popularité.

Noms de domaine et redirections

La première chose qui peut bloquer un référencement est d'abord la structure. Il arrive qu'un même site possède plusieurs noms de domaines, par exemple pour se proteger du cyber-squatting ou rester accessibles aux utilisateurs qui font des coquilles. Le problème est que des noms de domaines différents sont censés correspondre à des sites différents du point de vue des moteurs. Deux cas de figure se présentent alors :

  • Soit les différents domaines sont considérés comme des doublons (duplicate content), et sont tous ignorés.
  • Soit plusieurs domaines sont effectivement indexés, et la popularité du site est alors diluée.

Il se peut également que sur certains moteurs, ce soit tantôt un domaine qui ressorte, tantôt l'autre. Dans tous les cas, cela nuit à la visibilité du site...

Comment détecter une mauvaise gestion des domaines ? La commande allintitle:"title_de_la_homepage" de Google permet parfois de repérer les pages indexées par le moteur ayant pour balise <title> le contenu spécifié. Le symptôme d'une mauvaise gestion des domaines se manifeste alors comme plusieurs de vos noms de domaines affichant le même <title> : version avec et sans tirets, avec différents TLD, adresse IP...

Comment corriger ce problème ? Si vous réservez plusieurs noms de domaines pour un site :

  • Ne faites la promotion que d'un seul, ce qui limitera l'indexation des autres.
  • Redirigez les autres domaines vers le domaine principal, via une redirection serveur, de type 301.

N'utilisez que des redirections serveur : ce sont les seule suivies par les moteurs (les redirection à bases de frames 100%, de javascript, ou de balises meta refresh ne sont pas valables). N'utilisez pas de redirections serveurs de type 302, car le risque est que le contenu de la page de destination soit indexées sous l'URL (et donc le domaine) de la page redirigée, puisque la redirection est considérée temporaire.

Fichiers Robots.txt

Le protocole robots.txt sert a restreindre le parcours des sites web par les robots. Il s'agit d'un simple fichier txt, situé à la racine du site ou du sous-domaine. On peut y définir des répertoires ou fichiers à ne pas indexer pour tous les robots, ou désactiver l'accès seulement à des robots spécifiques.

Si ce fichier n'est en général par défaut pas présent sur un site web , il se peut qu'il ait été placé là par un précédent webmaster, où que vous l'ayiez oublié. Si un ou plusieurs moteurs refusent absolument de vous indexer pensez donc à regarder au cas où si ce fichier est présent, et s'il contient ce type de lignes :

User-agent: * Disallow: /

L'exemple ci-dessus interdit par exemple à tous les robots l'indexation du site.

Javascript, AJAX, Flash et images

Aujourd'hui encore, les moteurs de recherche ne sont pas capables d'interpréter correctement ni Javascript, ni les éléments Flash (même si Google commence timidement à extraire de l'information des fichiers Flash). Ils ne lisent pas non plus le contenu des images.

Ces technologies doivent donc être considérées comme bloquantes pour les moteurs, au moins en ce qui concerne le Flash. Javascript, lui, s'il n'est pas interprété par les moteurs peut dans certains cas être utilisé de façon à conserver l'accessibilité du site, tandis que les images significatives peuvent être dotées de l'attribut "alt".

Comment savoir ce que voient (ou pas) les moteurs ? Plusieurs façons :

  • Une 1ère méthode est tout simplement de faire un copié-collé de l'intégralité de la page dans le notepad (sous Windows) à partir du navigateur : On ne verra ainsi que le contenu compréhensible par les moteurs à savoir le contenu texte, et les attributs des images. L'inconvénient de cette méthode est que le texte affiché via javascript sera aussi copié, et que l'on ne voit pas si les liens sont accessibles... Cette méthode, si elle est rapide est donc peu fiable.
  • Seconde méthode : naviguer sur le site avec Firefox et l'extension Webdeveloper, en ayant désactivé Javascript, l'affichage des images, et CSS : On a alors une meilleure idée de l'accessibilité du site, puisque les liens restent cliquables. Mais les éléments Flash reste cependant visibles...
  • Troisième méthode moins simple mais vraiment efficace : naviguer sur le site avec un navigateur texte comme Lynx. Lynx est un navigateur préhistorique, qui ne connait ni les images, ni Javascript, ni Flash, ni CSS, pas même les tableaux. C'est donc le meilleur simulateur de robot qui soit.

Une fois diagnostiqué les points bloquants, que faire ? Il faut mettre en place des alternatives accessibles. Si votre site est 100% Flash, faites une version HTML. Si votre menu est en Flash, faites des liens href alternatifs, éventuellement en pied de page, ou dans le contenu. Si un clip Flash mène vers d'autres pages, doublez-le de liens href vers ces pages. Si vous faites de popups, rendez-les accessibles en utilisant un lien href doté d'un attribut "onclick".

Veillez aussi à utiliser de façon pertinente ces technologies : ce qui est bon pour les moteurs l'est souvent pour les utilisateurs, et inversement. La simplicité est souvent payante, tant en matière de référencement que d'ergonomie.

Formulaires

Les moteurs de recherche ne savent que suivre les liens pour passer d'une page à une autre, et sont incapables de remplir un formulaire. Si l'affichage du contenu dépend d'un formulaire, cela pose donc problème : le contenu du site aura beau être immensément riche, les moteurs seront incapables d'y accéder. C'est d'ailleurs ce qui constitue le fameux "web invisible" : des milliards de pages de qualité, mais cachées derrières des formulaires.

Identifier le problème est plutôt simple : tout contenu accessible uniquement via un formulaire est inaccessible pour les robots.

Comment le résoudre ? Il faut s'assurer que le contenu de la base de données soit accessible également via des liens HTML, qui auront pour URL les pages de résultats du formulaire (ce qui implique d'utiliser la méthode GET pour interroger la base, avec les paramètres dans l'URL).

On peut par exemple faire une arborescence qui soit fonction des éléments du formulaire : pour un site de recherche de biens immobiliers ce sera par exemple une arborescence par nature du bien puis par localisation géographique.

Balisage sémantique

Qu'est-ce que le balisage sémantique ? Les spécifications du HTML comprennent un certain nombre de balises qui ont une fonction "sémantique", càd qu'elle donnent des indications quand au "sens", ou plutôt quand à la fonction des éléments balisés.

  • Les titres et sous-titres devraient ainsi utiliser les balises <h1> à <h6>.
  • Les paragraphes la balise <p>.
  • Les listes et menus les balises <ul> et <ol>.
  • Les emphases la balise <strong> ou <em>.

Ces balises sont prises en compte par les moteurs : un contenu balisé comme un titre se verra donc reconnaître un poids plus fort, parce qu'un titre est censé résumer le contenu qui le suit. Le problème est que les logiciels WYSIWYG, souvent utilisés, ne vont pas insérer ces balises automatiquement. Dreamweaver ne sait pas qu'un titre est un titre... C'est donc à vous de baliser correctement votre contenu.

Comment identifier les éventuels problèmes de balisage ? Naviguez sur le site, toujours avec l'extension Webdeveloper, en ayant activé l'option "display element information", et assurez-vous que les élements sont bien balisés conformément à leur signification au sein du contenu.

Balise Title

Intéressons nous maintenant à ce qui fait réellement le contenu : le premier élément de contenu de votre site est la balise <title>. Cette balise, qui est obligatoire, est importante pour votre référencement, puisque elle est décrit normalement ce dont parle votre page. Les moteurs lui accordent donc une grande importance. Il ne faut pas oublier non plus que la balise <title> est le premier contact qu'a l'internaute avec votre site, puisque c'est son intitulé qui est généralement repris comme lien dans les pages de résultats des moteurs de recherche. C'est donc un élement qu'il faut rédiger avec soin.

Comment identifier les éventuels problèmes de <title> ? Dressez une carte du site avec le logiciel Xenu, et assurez-vous que chaque page possède un <title> pertinent par rapport à son contenu. "Pertinent" signifie ici que chaque page du site possède un title explicite, engageant et riche en mots-clés (sans pour autant devenir une liste). Cette balise devrait comporter idéalement entre 50 et 80 caractères.

Teneur du contenu

Les moteurs de recherche sont avant tout des machines à indexer du texte. Si vous souhaitez être visible sur certaines expressions, vous devez absolument employer ces expressions dans votre contenu (des exceptions existent, mais elles sont marginales). Si vous n'avez pas de contenu texte, ou si celui-ci est insuffisant, vous ne serez pas visible. Et si vous avez du contenu, mais que celui-ci n'est pas en adequation avec les mots-clés tapés par les utilisateurs, vous ne serez pas visible non plus.

Comme identifier si votre contenu bloque votre référencement ?

  • Assurez-vous que vous avez déjà du contenu
  • Assurez-vous que vous parlez le langage de vos utilisateurs. Soyez directs, explicites, favoriser un langage simple et naturel, évitez les jargons.
  • Assurez-vous d'avoir le plus possible de pages mono-thématiques, c'est à dire des pages consacrée à un nombre limité d'expressions-clés gravitant autour d'un thème donné.
  • Vérifiez que vos expressions-clés soient présentes dans vos pages, en particulier dans les zones "chaudes" des pages : la balise <title>, les titres et sous-titres, les paragraphes (le corps du texte), les menus et liens. Ces zones chaudes constituent le contenu primaire, qui doit être optimisé en priorité. A coté de ce contenu primaire, vous pouvez optimiser le contenu secondaire de la page : les balises meta description et meta keywords, les attributs alt, les noms de fichiers et de répertoires.

Popularité

La popularité est un concept imaginé par les moteurs pour départager des pages avec un contenu plus ou moins équivalent au niveau de la pertinence. Concrètement, il s'agit de mesurer la quantité, mais aussi la qualité des liens qui pointent vers une page. L'algorithme PageRank est le plus connu, mais chaque moteur possède en fait son propre indice de mesure de la popularité.

Comment déceler un manque de popularité ? On peut se faire une 1ère idée avec le PageRank affiché par la Googlebar et les operateurs de Google (exemple pour ce site). Pour des résultats plus détaillés, on peut également utiliser les services Google Webmaster Tools et Yahoo Site Explorer.

Si votre site affiche très peu de résultats, ou si votre popularité est nettement inférieure à celle de vos concurrents, alors vous manquez probablement de liens entrants. On peut considérer qu'un site avec un PR<3 (sur sa page d'accueil) est peu populaire, et qu'un site avec un PR de 4 ou 5 est moyennement populaire. Au dela, de 6 à 10, le site commence à vraiment être populaire. Attention cependant : l'échelle du PR étant logarithmique, un site PR4 n'est pas deux fois plus populaire qu'un site PR2.

Comment augmenter sa popularité ? L'idée générale est d'augmenter le nombre de liens (pertinents) pointant vers son site : soumettez donc votre site aux annuaires généralistes, aux annuaires spécialisés, aux sites thématiques, échangez des liens avec des sites proches, mettez votre site en signature sur les forums, mettez votre URL sur vos communiqués de presse, syndiquez votre contenu... Tout lien est bon à prendre tant qu'il fait sens pour l'utilisateur.

Distribuer sa popularité

On parle souvent de la "popularité d'un site", c'est en fait un abus de langage : la popularité est toujours relative à une page, et non à un site. Quand on dit qu'un site est populaire, on parle en fait de la popularité de sa page d'accueil, page qui est en général la plus populaire du site car la plus liée.

Mais cette page d'accueil est par définition une page généraliste : sa popularité ne lui sert donc pas à grand chose. Par contre des pages plus ciblées auront tout à gagner à devenir populaires. Il est donc important pour une visibilité maximale de redistribuer le PageRank pour faire en sorte que toutes les pages du site soient populaires.

Comment détecter et corriger une mauvaise répartition de la popularité ?

  • Assurez-vous que le PR ne décroit pas trop rapidement au fur et à mesure qu'on s'enfonce dans le site.
  • Redistribuez la popularité en mettant en place un réseau dense de liens à l'intérieur du site. L'idée est de réduire le nombre de clics pour accéder aux pages profondes, et de favoriser la remontée vers l'accueil à partir des pages profondes. Plusieurs méthodes sont possibles : chemins de fers, liens dans le contenu, multiplication des liens dans les menus.
  • Essayez d'établir des liens profonds venant de l'extérieur : c'est à dire des liens pointant non pas vers votre domaine ou votre page d'accueil, mais vers les pages profondes de votre site : pages d'accueil de second niveau, pages produits...

2/04/2007

MSN Live désactive certains de ses opérateurs de recherche

On pourrait croire à un poisson d'avil, mais ce n'est pas le cas... MSN a décidé de désactiver certains des opérateurs de son moteur de recherche :

"Si vous êtes un utilisateur régulier de nos opérateurs avancées de recherche tels que link:, linkdomain: et inurl, vous aurez probablement remarqué récemment que ces opérateurs ont été désactivés. Nous avons en effet constaté que ces opérateurs, s'ils étaient largement utilisés par des utilisateurs légitimes, l'étaient aussi malheureusement par ce qui s'est révélé être des automates, à des fins de data mining. Aussi, nous avons pris la décision de bloquer toutes les requêtes basées sur ces opérateurs (...) Nous faisons de notre mieux pour rendre ces opérateurs à nouveau disponibles (...) Merci de votre patience."

< 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 >