Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à Référencement Design et Cie 2.0

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

29/04/2008

Ce qui distingue les vrais référenceurs

Dans un article mi-humoristique, mi-sérieux, John Carcutt expose 14 faits qui permettent selon lui de distinguer les vrais référenceurs (aussi appelés SEO) des "je-veux-être". Si certains point, non traduits ici, sont spécifiques au milieu SEO américain, l'article n'en reste pas moins drôle et intéressant :

"Les vrais référenceurs ne portent pas de chapeau en public. Chacun possède en fait l'ensemble des coloris dans sa garde-robe (...) Les puristes utilisent exclusivement leur couleur favorites, et gardent les autres en réserve, juste au cas où".

"Les vrais référenceurs détestent faire du lien sponsorisé (...) ils s'épanouissent au contraire dans l'immesurabilité et l'imprévisibilité des algorithmes"

"Les vrais référenceurs fréquentent les conférences pour boire. Certains y vont pour parler, mais ils y vont essentiellement pour boire. Les vrais référenceurs savent que la plus value des conférence se trouve au bar et dans les soirées cocktails, car c'est là où l'information utile filtre parfois" (NdT : quand j'y vais, c'est pour parler hein).

"Les vrais référenceurs se fichent des changements d'algorithmes. Soit ils optimisent les sites de leurs clients dans le respect des fondamentaux, ce qui les rend peu sensibles aux changements, soit il travaillent sur leurs propres sites qui sont tellement en avance sur les algorithmes que les mises à jour de ceux-ci est anecdotique".

"Les vrais référenceurs possèdent au moins deux tee-shirts sur le thème du Search Marketing" (NdT : je n'en ai aucun pour ma part, j'espère ne pas porter atteinte à ma réputation en disant cela).

"Les vrais référenceurs ne fréquentent pas les forums. Ce fut longtemps le cas, et la plupart des SEO ont en fait appris le métier sur ces forums. Mais maintenant les vrais référenceurs diffusent tout leur savoir sur leur propres sites et sur les blogs amis. Pourquoi offrir de l'information gratuite alors que l'on peut la monétiser soi-même" (NdT : je continue personnellement à fréquenter les forums pour aider et être en contact avec la communauté. Mais il est vrai qu'il y a eu un glissement des forums vers les blogs en ce qui concerne la veille et les débats).

"Les vrais référenceurs se fichent des positions. Ils ne le disent pas, afin de ne pas inquiéter le client et de rester crédible aux yeux de la communauté. Mais au fond, ce qui motive le SEO c'est de prendre un site déficient sous son aile et de l'amener à son vrai potentiel. Ce que les vrais référenceurs aiment, c'est la belle ouvrage, pas les résultats. Ces derniers ne sont que des conséquences".

"Les vrais référenceurs pratiquent plus le référencement qu'ils n'écrivent à son sujet (...) Ils n'ont pas le temps d'écrire sur le référencement, sauf lorsque cela leur permet de faire un pause et de répondre aux 10.000 questions qui encombrent leur boîte email".

"Les vrais référenceurs se fichent du PageRank comme de leur première chemise. Les vrai SEO se bidonnent quand ils entendent le brouhaha que génère chaque mise à jour du PR affiché par la Googlebar".

"Les vrais référenceurs sont devenus référenceurs par accident. Ils n'ont pas commencé leur carrière en cherchant à devenir SEO (...) La plupart d'entre eux sont aujourd'hui heureux de faire ce métier".

"Les vrais référenceurs n'essayent même plus d'expliquer leur métier (...) le référenceur moyen s'est déjà fait poser cette question au minimum 500 fois et en général personne ne comprends la réponse" (NdT : pas faux. Pour les personnes n'utilisant jamais un moteur de recherche, être référenceur se résume souvent à "travailler dans l'internet").

24/04/2008

Lutter contre le duplicate content

La duplication de contenu, ou duplicate content, peut se définir comme le fait pour un contenu d'être accessible via plusieurs URLs. Le duplicate content est une notion à dimensions variables : la duplication peut être stricte, ou bien partielle (on parle parfois de near-duplicate ou de similarité). Les moteurs de recherche eux-même ne font pas forcément de distinction claire entre les deux types, tant dans leur brevets que dans leurs directives aux webmasters.

Dans cet article, j'adopterai une définition restreinte du duplicate content, en considérant qu'il y a duplication de contenu quand le contenu dupliqué est strictement le même, à l'octet près (ou à quelques octets près), et que la duplication émane du site à l'origine du contenu.

En tant que bases de données, les moteurs de recherche cherchent à éviter les doublons, qui encombrent inutilement leurs bases. Il est donc important de s'assurer que son propre contenu ne soit pas éliminé. Mais il y a plus encore : en ayant un même contenu accessible via plusieurs URLs, on dilue en fait les informations relatives à l'environnement des pages comme le PageRank : une partie de ce PR va être attribuée à l'URL A, et l'autre partie à l'URL B. Cela n'aide évidemment pas au référencement puisque aucune des pages ne va bénéficier de l'intégralité du PageRank. Dans cet article, nous allons voir quelques sources fréquentes de duplicate content, ainsi que les moyens de l'éviter.

Identifiants de session passés dans les URLs

Les identifications de session sont éminemment pratiques quand il s'agit de suivre un utilisateur tout au long de sa consultation d'un site. Passés dans l'URL, ils sont cependant très dangereux, puisque une même page peut potentiellement être indexée indéfiniment du fait de la création d'une nouvelle session à chaque visite du robot. Le robot pourrait donc indexer toutes ces URLs, qui correspondent en fait à un même contenu :

  • http://www.site.com/page.php&sid=00000001
  • http://www.site.com/page.php&sid=00000002
  • http://www.site.com/page.php&sid=00000003

Dans la pratique, les moteurs pourront soit ignorer les pages avec des paramètres ressemblant à de tels identifiants, soit indexer un grand nombre de pages pour ensuite les éliminer, soit indexer un petit nombre de pages qui resteront dans l'index, au moins un certain temps. Dans tous les cas, aucune de ces possibilités n'est souhaitable en ce qui concerne le référencement. Préférez donc une gestion des sessions utilisant les cookies et une base de données, à moins que les pages n'aient pas vocation à être indexées.

Inversion de l'ordre des paramètres dans les URLs

Une URL dynamique peut comporter plusieurs paramètres :

http://www.site.com/catalogue.php?gamme=x&produit=y

Or il se peut que par maladresse votre site comporte à la fois des liens de la forme /catalogue.php?gamme=x&produit=y et /catalogue.php?produit=y&gamme=x. Du point de vue de l'utilisateur, il s'agira bien d'une seule et même page, et le rendu sera correct dans les deux cas. Du point de vue des moteurs, il s'agira de deux URLs distinctes. Assurez-vous donc que la structure de vos URLs soit consistante tout au long du site.

Canonisation des domaines

L'usage courant veut qu'une URL commence souvent par "www". Mais il ne s'agit que d'une convention : en fait le "www" n'est qu'un sous-domaine du domaine principal, et il n'est pas rare qu'un site soit accessible avec ou sans le préfixe www. On risque alors de se retrouver avec des liens pointant tantôt vers "site.com", tantôt vers "www.site.com". Pire : si vos liens sont codés en relatif, toutes vos URLs courent le risque d'être victimes de duplicate content ! Heureusement, les moteurs sont de plus en plus intelligents et gèrent relativement bien ce problème. Mais il ne sont jamais aussi intelligents qu'on pourrait le souhaiter... Aussi prenez les devants en choisissant un domaine principal et en redirigeant l'autre version vers le domaine principal, via une redirection 301 (permanently moved).

Noms de domaines multiples

Il est techniquement possible d'afficher un même site sur plusieurs domaines, par exemple site.fr et site.com. Procéder de la sorte cependant constitue de la duplication de contenu. S'il est pertinent de réserver plusieurs noms de domaines pour se préserver du cyber-squatting, choisissez de n'utiliser qu'un seul domaine par contenu et redirigez les autres domaines vers le domaine principal, via une redirection 301.

Mauvais gestion de l'URL rewriting

La mise en place d'un système de récriture d'URL sur un site existant peut aussi être à l'origine de duplicate content si un système de redirection n'a pas été mis en place. En effet, en l'absence de redirection (301), les anciennes URLs continueront d'être accessibles. Chaque contenu sera donc visible sur deux URLs : l'URL d'origine et l'URL réécrite. Assurez-vous également que votre système de réécriture ne permette pas d'accéder à un même contenu via plusieurs URLs différentes.

10/04/2008

Les internautes anglais favorisent eux aussi la recherche par défaut

Une étude menée par Robin Goad, analyste chez Hitwise, démontre à nouveau le pouvoir des valeurs par défaut : à en croire les résultats de l'étude, seules 13.6% des recherches sur la version anglaise de Google le seraient avec l'option "pages from UK" activée. Ce chiffre est un peu plus élevé que celui observé en France, car le problème de la similarité de langue avec les Etats-unis concerne davantage les internautes britaniques. Mais ce chiffre reste quand même très bas.

Il est donc important de considérer les options par défaut des moteurs quand il s'agit de mesurer la visibilité d'un site.

Résultats du sondage "vos sources d'information SEO favorites"

Le sondage que j'avais lancé le 28 mars est désormais fermé. Quels enseignements en tirer ?

Une précision tout d'abord : ce sondage ne doit pas être interprété comme une mesure globale de la popularité ou de la qualité des différentes sources. Tout ce que ce sondage mesure, c'est la popularité de certaines publications auprès des lecteurs de ce blog.

Sans suprise, Abondance et Webrankinfo restent les sources les plus souvent citées (GIF), du fait de leur visibilité et de leur légitimité historique. La surprise vient plutôt du score de ces sites phares : sur quelques 1438 votants, seuls 15% des lecteurs de Référencement Design et Cie ont déclaré consulter régulièrement ou être abonné à Abondance (12,2% pour Webrankinfo). Il est vrai que ce blog ne traite pas uniquement de référencement, et compte parmi ses lecteurs de gens ayant d'autres centres d'interêt, ce qui a pu influer ce score. Les résultats auraient probablement été différents si ce blog était consacré uniquement au SEO.

Parmi les autres sources fréquemment lues par les lecteurs de Référencement Design et Cie, Aurélien Bardon réalise un très bon score : vous êtes près de 9% à lire son blog. Zorgloob, le blog de Matt Cutts, celui de 1ère Position ainsi que les blogs officiels Google sont également fréquemment cités.

Paradoxalement, certaines sources que j'estime personnellement très pertinentes semblent peu lues, probablement parce qu'écrites en anglais. C'est le cas par exemple de SEO by the sea, de Google Blogoscoped, du blog de David Naylor, de SEO Roundtable. La traduction ou le résumé d'articles anglophones remarquables semblent donc pertinents.

Enfin, un certain nombre d'entre vous (3,8%) ont cité d'autres sources, ce qui montre la grande diversité de la sphère Search Marketing.

Merci à tous les votants :)

3/04/2008

Moteurzine fête sa 150ème édition

La lettre d'information consacrée aux outils de recherche et au search marketing Moteurzine célèbre sa 150ème parution, avec pour l'occasion une édition spéciale où chaque chroniqueur se dévoile au travers d'une mini-interview.

Un concours sous forme d'advergame est également organisé, qui vous permettra (si vous êtes bons) de gagner un iPhone, un iPod touch, un disque dur externe de 500 Go, des liens sponsorisés sur les Pages Hub, ainsi que des bons d'achat MC Création.

Mon seul regret : que le caustique Jean Tantout ne se soit pas de ce numéro. J'avoue que c'est ma rubrique préférée :D

1/04/2008

Un script PHP pour capturer Googlebot (ainsi que les autres robots)

J'avais en tête depuis longtemps ce projet, mais mes compétences en programmation étant ce qu'elles sont, et mes heures de temps libre n'étant pas élastiques, la mise au point s'est avérée plus longue que prévue... Quoi qu'il en soit, je suis heureux de vous proposer aujourd'hui Bot-Tamer, un petit script PHP qui vous permettra littéralement de "capturer" les robots d'indexation, pour ensuite les exploiter à votre guise.

Vous pourrez par exemple capturer Googlebot pour le relâcher dans une partie privée de votre site web, afin d'observer comme il se comporte et affiner vos techniques de référencement in vitro. Encore mieux : il est également possible de configurer le script pour capturer les robots dans le but de les réintroduire le moment voulu dans leur "milieu naturel", en fait le site de votre choix ;) L'indexation de vos nouveaux sites web sera ainsi accélérée. A ce jour, les robots d'indexation des principaux moteurs sont supportés (Google, Yahoo, MSN, Ask, Exalead,Voila). D'autres moteurs seront ajoutés par la suite.

Le script peut être téléchargé ici (zip). L'installation est simple, les instructions figurent en commentaires dans le fichier PHP. Bien entendu, il s'agit d'une version beta, aussi n'hésitez pas à me communiquer tout bug que vous pourriez rencontrer. Egalement, si vous avez une autre idée de nom, je suis preneur. J'avoue avoir été peu inspiré :)

Edit : il s'agissait bien sûr d'un poisson d'avril, comme les personnes ayant téléchargé le script ont dû vite s'en apercevoir ;)

28/03/2008

Sondage : vos sources d'information SEO favorites ?

Les sites et blogs d'actualité traitant du référencement sont aujourd'hui légion et l'infobésité nous guette... Afin d'éviter de servir de caisse de résonance au bruit ambiant, j'aurais aimé savoir quelles sont les sources d'information que vous consultez régulièrement hormis ce blog. Merci donc à ceux qui accepteront de répondre à ce petit sondage :)

7/03/2008

L'attribut nofollow fait débat

Prévu à l'origine pour combattre le spam de commentaires, l'attribut nofollow refait à nouveau débat : dans un billet intitulé "You'd Be Wise To NoFollow This Dubious SEO Advice", Shari Thurow répond à un article de Stephan Spencer et à une tendance plus générale prônant l'utilisation de l'attribut nofollow pour contrôler la distribution du PageRank au sein d'un site.

Pour Shari Thurow, l'attribut nofollow ne saurait être un substitut à une architecture defectueuse. Une autre réflexion que fait Shari est qu'en jouant avec cet attribut, on repart dans l'éternel travers du référencement, qui est de faire les choses différement selon qu'on s'adresse aux utilisateurs ou aux moteurs de recherche. Enfin, l'attribut nofollow étant à la base conçu pour exprimer le fait que l'on n'accorde pas une confiance aveugle au lien, il est plutôt paradoxal de l'utiliser pour son propre site.

Michael Martinez y va également de son couplet anti-nofollow : utiliser cet attribut revient pour lui implicitement à demander de ne pas indexer une page, ce qui permettra éventuellement à des sites "scrapant" le site original de se positionner au passage. Selon lui, enlever du PageRank à une partie du contenu ne fait que le dévaluer. Mais surtout, le PageRank réel étant une inconnue, vouloir le "sculpter" revient à travailler à l'aveugle.

Pour ma part, je ne suis pas pour l'utilisation de cet attribut dans la majorité des cas, surtout dans le cas d'une tentative de manipulation de la popularité. D'abord, l'attribut n'a pas été créé originellement pour cet usage. Je rejoins donc Shari Turow sur le fait que dans un site, si un lien vers un contenu est pertinent pour l'utilisateur, il l'est en général pour les moteurs. Certes, certaines pages ont un interêt à priori très limité pour le référencement, comme les pages contact, mentions légales etc. Mais ces pages redistribuent le PR qu'elles recoivent, et le processus est itératif. De plus, une page web typique comporte en général quelques dizaines de liens. Ce n'est donc que quelques dixièmes de popularité qui partent vers chaque page, dixièmes qui seront redistribué en partie au reste du site. Enfin, les moteurs savent de plus en plus faire la distinction entre les contenus importants et les contenus plus génériques ou redondants, en se basant sur la structure des pages. Tous ces efforts me semblent donc bien vains.

Mais histoire d'étayer mon propos, j'ai quand même à titre expérimental doté quelques liens internes de ce blog d'attributs nofollow : il s'agit des liens vers les flux RSS, des liens vers les commentaires et des liens de pagination. Les liens des commentateurs ainsi que les liens vers les sites externes restent bien entendu en dofollow. Nous verrons bien si le trafic explose ;)

A lire également sur ce sujet, le billet d'Aurélien, qui diffère sur la question.

5/03/2008

Webrankinfo piraté

Depuis hier soir, le site Webrankinfo, une des plus grosses communautés francophone sur le référencement, affiche une page parking (copie d'écran). Il semblerait qu'Olivier Duffez se soit fait hacker son compte Gmail, ce qui aurait permis aux hackers de voler son nom de domaine. Olivier n'est pas la première personne à qui cela arrive.

Bon courage à lui, et bravo à Google de rendre même des informations éminemment personnelles "universellement accessibles"...

Edit : Olivier Duffez explique l'affaire sur son blog.

3/03/2008

Où placer sa marque dans la balise <title> ?

Dans sa dernière alerte, Jakob Nielsen révise ses recommandations sur l'utilisation des noms de marques dans les balises <title>. Jusque ici, les recommandations du gourou de l'utilisabilité étaient purement et simplement d'éviter de faire apparaître le nom de l'entreprise dès le début de la balise.

Désormais, Jakob Nielsen recommande de faire apparaître le nom de l'entreprise en premier seulement lorsque deux conditions sont réunies : il faut que le titre soit à la fois susceptible d'apparaître dans des pages de résultats affichant de nombreux liens de qualité médiocre, et que le nom de l'entreprise soit une marque éminemment reconnue et respectée.

Jakob Nielsen explique ce revirement par les fait que les utilisateurs des moteurs de recherche sont très fréquemment confrontés à des pages de résultats bourrés de liens qui n'ont aucun sens, ou qui affichent des intitulés "fouillis". Frustrés, ils tendent alors à cliquer sur des liens qui leur sont familiers (identifiables car affichant leur marque), même si ces liens apparaissent plus bas dans les pages de résultats.

Ces recommandations sont plutôt pertinentes, mais les critères de mise en oeuvre sont à mon avis difficilement applicables : toute page est susceptible d'apparaître dans un set de résultats médiocre, et la notoriété d'une marque est une notion assez subjective...

Pour ma part, je suis plutôt en faveur de l'insertion systématique de la marque dès le début de la balise <title> sauf dans le cas d'un intitulé de marque très long. Une marque un minimum connue, gagnera en taux de clic ce qu'elle perdra (éventuellement, car ce n'est pas sûr) en positionnement. Même si l'on n'est pas connu, je suis persuadé qu'afficher une marque renforce la crédibilité : les internautes confrontés quotidiennement au spam ont très probablement appris à reconnaître certains signes de mauvaise qualité, comme le bourrage de mots-clés dans les balises <title> et les titres trop génériques. Enfin, au niveau de la communication, ne pas afficher de marque revient implicitement à affirmer que l'on est un site interchangeable, ce qui n'est évidemment pas souhaitable, à part si l'on est un MFA.

27/02/2008

Apero référencement à Lille le 28 février

Demain soir aura lieu le premier apéro référencement de l'année 2008, au Café citoyen de Lille, à partir de 19h. L'entrée est gratuite, mais vous pouvez annoncer votre venue sur Bistoule. Au plaisir de vous y croiser :)

C'est assez inquiétant

Sergey Brin à propos de la fusion avortée Microsoft - Yahoo :

"Si l'internet a pu se développer, c'est sur la base de standards ouverts, et d'une grande diversité de sociétés (...) et quand vous commencez à voir des sociétés controlant à la fois le système d'exploitation et les navigateurs (NdT : voir ici aussi), ce à quoi l'on assiste est véritablement une prise de pouvoir de ces sociétés sur les sites web, et ouvre la voie à divers types de manipulation. Je crois que c'est inquiétant".

En effet.

19/02/2008

Quelques conseils d'Adam Lasnik, search evangelist chez Google

Eric Enge de StoneTemple Consulting a mené une longue interview d'Adam Lasnik, "Search Evangelist" chez Google. Si l'ensemble de l'article est des plus intéressant, plusieurs points ont plus particulièrement retenu mon attention :

  • Si Google recommande toujours de ne pas utiliser plus de 100 liens par page, ce n'est plus parce que cela correspond à une limitation technique du moteur, mais uniquement parce qu'un trop grand nombre de liens est souvent révélateur de liens de mauvaise qualité.
  • Les fichiers sitemap peuvent être utilisés pour résoudre certains problèmes de duplicate content et de canonicalisation. En cas de duplication de contenu, Google tendra à favoriser l'URL spécifiée dans le fichier sitemap.xml.
  • Lorsque Google "canonicalise" une URL, les informations relatives au PageRank sont également fusionnées (je recommande cependant de prendre les devants et de rediriger vers l'URL principale via une redirection 301).
  • Il est correct aux yeux de Google de fournir un contenu alternatif aux fichiers Flash, tant que le texte alternatif reste identique au contenu du clip Flash. Peu importe la technique employée.

15/02/2008

Détecter le spam par l'analyse du contenu

Dans une étude intitulée "Detecting Spam Web Pages through Content Analysis", Alexandros Toulas,chercheur au département de génie informatique de l'université de Los Angeles, Marc Najork, Mark Manasse et Dennis fetterly, chercheurs au sein du laboratoire de recherche Microsoft, proposent plusieurs indicateurs qui, combinés, permettent de détecter les pages constitutives de spam avec une efficacité de plus de 86%.

Parmi les indicateurs pouvant laisser penser qu'une page est du spam :

  • L'usage d'extensions plus susceptibles de contenir du spam que d'autres (.biz et .us).
  • L'utilisation de langues plus spammées que d'autres (le français, dans une moindre mesure l'anglais).
  • Une longueur anormale de la balise <title> (plus d'une quinzaine de mots).
  • Une longueur moyenne des mots anormale (plus de 6 caractères).
  • Un ratio ancres de liens / texte trop important.
  • Une compressibilité de la page plus élevée que la moyenne (via l'algorithme Gzip).
  • Un ratio balisage / contenu anormalement faible.
  • Une fréquence anormalement faible des mots les plus fréquents du corpus.
  • Une fraction anormalement élevée des mots les plus fréquents du corpus (plus de 65%).
  • Une présence anormale élevée de n-grammes soit trop fréquents, soit improbables.

Il est important de noter que quasiment aucun de ces indicateurs ne peut servir isolément à caractériser le spam. C'est uniquement en cumulant les indicateurs et en mettant au point une heuristique qu'une détection fiable du spam devient possible.

1/02/2008

Microsoft sur le point de racheter Yahoo ?

Microsoft vient de lancer une offre public d'achat à l'intention de Yahoo, pour un montant de 44.6 milliards de dollars au prix de 31$ l'action, soit une prime de 62% par rapport à son cours actuel. Les marchés ont vite réagit, avec une action Yahoo en hausse et un Google à la baisse. La transaction est-elle envisageable ? Pourquoi pas : la situation n'est pas au beau fixe pour le portail.

Au delà de l'aspect financier de l'affaire, que va devenir la technologie Yahoo si le rachat se concrétise ? Yahoo en rachetant Overture en 2003 avait aussi racheté indirectement Altavista et Fast, et l'on sait ce que sont devenues ces technologies... Si le moteur Yahoo devait disparaître, ce serait encore un moteur de moins dans le paysage des outils de recherche, où l'on ne trouverait plus que Google, Microsoft, et dans une (très) moindre mesure Ask...

< 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 >