Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à mon nouveau blog SEO

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

29/04/2008

Ce qui distingue les vrais référenceurs

Dans un article mi-humoristique, mi-sérieux, John Carcutt expose 14 faits qui permettent selon lui de distinguer les vrais référenceurs (aussi appelés SEO) des "je-veux-être". Si certains point, non traduits ici, sont spécifiques au milieu SEO américain, l'article n'en reste pas moins drôle et intéressant :

"Les vrais référenceurs ne portent pas de chapeau en public. Chacun possède en fait l'ensemble des coloris dans sa garde-robe (...) Les puristes utilisent exclusivement leur couleur favorites, et gardent les autres en réserve, juste au cas où".

"Les vrais référenceurs détestent faire du lien sponsorisé (...) ils s'épanouissent au contraire dans l'immesurabilité et l'imprévisibilité des algorithmes"

"Les vrais référenceurs fréquentent les conférences pour boire. Certains y vont pour parler, mais ils y vont essentiellement pour boire. Les vrais référenceurs savent que la plus value des conférence se trouve au bar et dans les soirées cocktails, car c'est là où l'information utile filtre parfois" (NdT : quand j'y vais, c'est pour parler hein).

"Les vrais référenceurs se fichent des changements d'algorithmes. Soit ils optimisent les sites de leurs clients dans le respect des fondamentaux, ce qui les rend peu sensibles aux changements, soit il travaillent sur leurs propres sites qui sont tellement en avance sur les algorithmes que les mises à jour de ceux-ci est anecdotique".

"Les vrais référenceurs possèdent au moins deux tee-shirts sur le thème du Search Marketing" (NdT : je n'en ai aucun pour ma part, j'espère ne pas porter atteinte à ma réputation en disant cela).

"Les vrais référenceurs ne fréquentent pas les forums. Ce fut longtemps le cas, et la plupart des SEO ont en fait appris le métier sur ces forums. Mais maintenant les vrais référenceurs diffusent tout leur savoir sur leur propres sites et sur les blogs amis. Pourquoi offrir de l'information gratuite alors que l'on peut la monétiser soi-même" (NdT : je continue personnellement à fréquenter les forums pour aider et être en contact avec la communauté. Mais il est vrai qu'il y a eu un glissement des forums vers les blogs en ce qui concerne la veille et les débats).

"Les vrais référenceurs se fichent des positions. Ils ne le disent pas, afin de ne pas inquiéter le client et de rester crédible aux yeux de la communauté. Mais au fond, ce qui motive le SEO c'est de prendre un site déficient sous son aile et de l'amener à son vrai potentiel. Ce que les vrais référenceurs aiment, c'est la belle ouvrage, pas les résultats. Ces derniers ne sont que des conséquences".

"Les vrais référenceurs pratiquent plus le référencement qu'ils n'écrivent à son sujet (...) Ils n'ont pas le temps d'écrire sur le référencement, sauf lorsque cela leur permet de faire un pause et de répondre aux 10.000 questions qui encombrent leur boîte email".

"Les vrais référenceurs se fichent du PageRank comme de leur première chemise. Les vrai SEO se bidonnent quand ils entendent le brouhaha que génère chaque mise à jour du PR affiché par la Googlebar".

"Les vrais référenceurs sont devenus référenceurs par accident. Ils n'ont pas commencé leur carrière en cherchant à devenir SEO (...) La plupart d'entre eux sont aujourd'hui heureux de faire ce métier".

"Les vrais référenceurs n'essayent même plus d'expliquer leur métier (...) le référenceur moyen s'est déjà fait poser cette question au minimum 500 fois et en général personne ne comprends la réponse" (NdT : pas faux. Pour les personnes n'utilisant jamais un moteur de recherche, être référenceur se résume souvent à "travailler dans l'internet").

24/04/2008

Lutter contre le duplicate content

La duplication de contenu, ou duplicate content, peut se définir comme le fait pour un contenu d'être accessible via plusieurs URLs. Le duplicate content est une notion à dimensions variables : la duplication peut être stricte, ou bien partielle (on parle parfois de near-duplicate ou de similarité). Les moteurs de recherche eux-même ne font pas forcément de distinction claire entre les deux types, tant dans leur brevets que dans leurs directives aux webmasters.

Dans cet article, j'adopterai une définition restreinte du duplicate content, en considérant qu'il y a duplication de contenu quand le contenu dupliqué est strictement le même, à l'octet près (ou à quelques octets près), et que la duplication émane du site à l'origine du contenu.

En tant que bases de données, les moteurs de recherche cherchent à éviter les doublons, qui encombrent inutilement leurs bases. Il est donc important de s'assurer que son propre contenu ne soit pas éliminé. Mais il y a plus encore : en ayant un même contenu accessible via plusieurs URLs, on dilue en fait les informations relatives à l'environnement des pages comme le PageRank : une partie de ce PR va être attribuée à l'URL A, et l'autre partie à l'URL B. Cela n'aide évidemment pas au référencement puisque aucune des pages ne va bénéficier de l'intégralité du PageRank. Dans cet article, nous allons voir quelques sources fréquentes de duplicate content, ainsi que les moyens de l'éviter.

Identifiants de session passés dans les URLs

Les identifications de session sont éminemment pratiques quand il s'agit de suivre un utilisateur tout au long de sa consultation d'un site. Passés dans l'URL, ils sont cependant très dangereux, puisque une même page peut potentiellement être indexée indéfiniment du fait de la création d'une nouvelle session à chaque visite du robot. Le robot pourrait donc indexer toutes ces URLs, qui correspondent en fait à un même contenu :

  • http://www.site.com/page.php&sid=00000001
  • http://www.site.com/page.php&sid=00000002
  • http://www.site.com/page.php&sid=00000003

Dans la pratique, les moteurs pourront soit ignorer les pages avec des paramètres ressemblant à de tels identifiants, soit indexer un grand nombre de pages pour ensuite les éliminer, soit indexer un petit nombre de pages qui resteront dans l'index, au moins un certain temps. Dans tous les cas, aucune de ces possibilités n'est souhaitable en ce qui concerne le référencement. Préférez donc une gestion des sessions utilisant les cookies et une base de données, à moins que les pages n'aient pas vocation à être indexées.

Inversion de l'ordre des paramètres dans les URLs

Une URL dynamique peut comporter plusieurs paramètres :

http://www.site.com/catalogue.php?gamme=x&produit=y

Or il se peut que par maladresse votre site comporte à la fois des liens de la forme /catalogue.php?gamme=x&produit=y et /catalogue.php?produit=y&gamme=x. Du point de vue de l'utilisateur, il s'agira bien d'une seule et même page, et le rendu sera correct dans les deux cas. Du point de vue des moteurs, il s'agira de deux URLs distinctes. Assurez-vous donc que la structure de vos URLs soit consistante tout au long du site.

Canonisation des domaines

L'usage courant veut qu'une URL commence souvent par "www". Mais il ne s'agit que d'une convention : en fait le "www" n'est qu'un sous-domaine du domaine principal, et il n'est pas rare qu'un site soit accessible avec ou sans le préfixe www. On risque alors de se retrouver avec des liens pointant tantôt vers "site.com", tantôt vers "www.site.com". Pire : si vos liens sont codés en relatif, toutes vos URLs courent le risque d'être victimes de duplicate content ! Heureusement, les moteurs sont de plus en plus intelligents et gèrent relativement bien ce problème. Mais il ne sont jamais aussi intelligents qu'on pourrait le souhaiter... Aussi prenez les devants en choisissant un domaine principal et en redirigeant l'autre version vers le domaine principal, via une redirection 301 (permanently moved).

Noms de domaines multiples

Il est techniquement possible d'afficher un même site sur plusieurs domaines, par exemple site.fr et site.com. Procéder de la sorte cependant constitue de la duplication de contenu. S'il est pertinent de réserver plusieurs noms de domaines pour se préserver du cyber-squatting, choisissez de n'utiliser qu'un seul domaine par contenu et redirigez les autres domaines vers le domaine principal, via une redirection 301.

Mauvais gestion de l'URL rewriting

La mise en place d'un système de récriture d'URL sur un site existant peut aussi être à l'origine de duplicate content si un système de redirection n'a pas été mis en place. En effet, en l'absence de redirection (301), les anciennes URLs continueront d'être accessibles. Chaque contenu sera donc visible sur deux URLs : l'URL d'origine et l'URL réécrite. Assurez-vous également que votre système de réécriture ne permette pas d'accéder à un même contenu via plusieurs URLs différentes.

16/04/2008

Des statistiques sur l'utilisation des tag clouds

Dans sa présentation "Do Real People Really Use Tag Clouds?: Research To Help Separate Web 2.0’s Hits From Hype", Garrick Schmitt fournit notamment des données sur l'utilisation par les internautes des tag clouds, aussi appelés "ou nuages de mots-clés" (slide 17). Ces chiffres sont tirés de l'étude "Digital Consumer Behavior Study" (PDF) menée par Avenue A | Razorfish en juillet 2007 auprès de 475 "consommateurs connectés" sur le sol américain.

A en croire les résultats de cette étude, 88% des internautes n'utiliseraient jamais ou seulement une fois de temps en temps les tag clouds. Ils seraient même 65% à ne jamais les utiliser. Quand on les interroge sur l'utilité des nuages de mots, 68% répondent qu'ils sont la plupart du temps inutiles.

Notez que Garrick Schmitt a semble-t-il une interprétation un peu plus optimiste de ces données, puisqu'il considère que 35% utilisent les tag clouds au moins une fois de temps en temps.

Il semblerait donc qu'il y ait un décalage entre l'engouement des concepteurs de sites "web 2.0" pour ce mode de navigation et son usage par l'utilisateur moyen.

10/04/2008

Les internautes anglais favorisent eux aussi la recherche par défaut

Une étude menée par Robin Goad, analyste chez Hitwise, démontre à nouveau le pouvoir des valeurs par défaut : à en croire les résultats de l'étude, seules 13.6% des recherches sur la version anglaise de Google le seraient avec l'option "pages from UK" activée. Ce chiffre est un peu plus élevé que celui observé en France, car le problème de la similarité de langue avec les Etats-unis concerne davantage les internautes britaniques. Mais ce chiffre reste quand même très bas.

Il est donc important de considérer les options par défaut des moteurs quand il s'agit de mesurer la visibilité d'un site.

Résultats du sondage "vos sources d'information SEO favorites"

Le sondage que j'avais lancé le 28 mars est désormais fermé. Quels enseignements en tirer ?

Une précision tout d'abord : ce sondage ne doit pas être interprété comme une mesure globale de la popularité ou de la qualité des différentes sources. Tout ce que ce sondage mesure, c'est la popularité de certaines publications auprès des lecteurs de ce blog.

Sans suprise, Abondance et Webrankinfo restent les sources les plus souvent citées (GIF), du fait de leur visibilité et de leur légitimité historique. La surprise vient plutôt du score de ces sites phares : sur quelques 1438 votants, seuls 15% des lecteurs de Référencement Design et Cie ont déclaré consulter régulièrement ou être abonné à Abondance (12,2% pour Webrankinfo). Il est vrai que ce blog ne traite pas uniquement de référencement, et compte parmi ses lecteurs de gens ayant d'autres centres d'interêt, ce qui a pu influer ce score. Les résultats auraient probablement été différents si ce blog était consacré uniquement au SEO.

Parmi les autres sources fréquemment lues par les lecteurs de Référencement Design et Cie, Aurélien Bardon réalise un très bon score : vous êtes près de 9% à lire son blog. Zorgloob, le blog de Matt Cutts, celui de 1ère Position ainsi que les blogs officiels Google sont également fréquemment cités.

Paradoxalement, certaines sources que j'estime personnellement très pertinentes semblent peu lues, probablement parce qu'écrites en anglais. C'est le cas par exemple de SEO by the sea, de Google Blogoscoped, du blog de David Naylor, de SEO Roundtable. La traduction ou le résumé d'articles anglophones remarquables semblent donc pertinents.

Enfin, un certain nombre d'entre vous (3,8%) ont cité d'autres sources, ce qui montre la grande diversité de la sphère Search Marketing.

Merci à tous les votants :)

3/04/2008

Moteurzine fête sa 150ème édition

La lettre d'information consacrée aux outils de recherche et au search marketing Moteurzine célèbre sa 150ème parution, avec pour l'occasion une édition spéciale où chaque chroniqueur se dévoile au travers d'une mini-interview.

Un concours sous forme d'advergame est également organisé, qui vous permettra (si vous êtes bons) de gagner un iPhone, un iPod touch, un disque dur externe de 500 Go, des liens sponsorisés sur les Pages Hub, ainsi que des bons d'achat MC Création.

Mon seul regret : que le caustique Jean Tantout ne se soit pas de ce numéro. J'avoue que c'est ma rubrique préférée :D

1/04/2008

Un script PHP pour capturer Googlebot (ainsi que les autres robots)

J'avais en tête depuis longtemps ce projet, mais mes compétences en programmation étant ce qu'elles sont, et mes heures de temps libre n'étant pas élastiques, la mise au point s'est avérée plus longue que prévue... Quoi qu'il en soit, je suis heureux de vous proposer aujourd'hui Bot-Tamer, un petit script PHP qui vous permettra littéralement de "capturer" les robots d'indexation, pour ensuite les exploiter à votre guise.

Vous pourrez par exemple capturer Googlebot pour le relâcher dans une partie privée de votre site web, afin d'observer comme il se comporte et affiner vos techniques de référencement in vitro. Encore mieux : il est également possible de configurer le script pour capturer les robots dans le but de les réintroduire le moment voulu dans leur "milieu naturel", en fait le site de votre choix ;) L'indexation de vos nouveaux sites web sera ainsi accélérée. A ce jour, les robots d'indexation des principaux moteurs sont supportés (Google, Yahoo, MSN, Ask, Exalead,Voila). D'autres moteurs seront ajoutés par la suite.

Le script peut être téléchargé ici (zip). L'installation est simple, les instructions figurent en commentaires dans le fichier PHP. Bien entendu, il s'agit d'une version beta, aussi n'hésitez pas à me communiquer tout bug que vous pourriez rencontrer. Egalement, si vous avez une autre idée de nom, je suis preneur. J'avoue avoir été peu inspiré :)

Edit : il s'agissait bien sûr d'un poisson d'avril, comme les personnes ayant téléchargé le script ont dû vite s'en apercevoir ;)