Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à mon nouveau blog SEO

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

30/09/2008

Un brevet Google sur la prise en compte des données historiques (2ème partie - les liens)

Lors du précédent billet sur l'analyse du brevet Google intitulé "Information retrieval based on historical data" nous avons vu que les critères relatifs à la date d'origine des documents et au requêtes des utilisateurs pouvaient être pris en compte par le moteur de recherche. Dans ce billet, je me suis intéressé plus spécifiquement à la section du brevet relative aux liens entre documents.

Le brevet explique ainsi "qu'en analysant l'évolution dans le temps des liens pointant vers un document ou émanant de celui-ci, le moteur de recherche peut ajuster son score en conséquence. Par exemple, une tendance à la baisse du nombre de nouveaux liens ou du taux de création des nouveaux liens peut signifier qu'un document est stagnant (stale), auquel cas son score peut être revu à la baisse. A l'inverse, une tendance à la hausse du nombre de nouveaux liens peut signaler un document "frais" (dont le contenu est récent, ou a été révisé il y a peu), pouvant être considéré comme davantage pertinent en fonction du contexte et de l'implémentation". "Stagnant" dans le contexte du brevet signifie par exemple un document qui n'est plus actualisé, qui a perdu de son importance, ou qui est devenu obsolète du fait de la publication d'un autre document".

Tous les liens ne sont pas égaux poursuit le brevet : "selon une autre implémentation, l'analyse peut prendre en compte un poids assigné aux liens. Dans ce cas, chaque lien peut voir son poids modulé par une fonction qui s'accroît avec la fraîcheur du lien. La fraîcheur de ce lien peut être déterminée en fonction de la date d'apparition ou de modification du lien, de la date d'apparition ou de modification de l'ancre texte du lien, de la date d'apparition ou de modification du document contenant le lien. Cette date d'apparition ou de changement du document contenant le lien peut d'ailleurs constituer un meilleur indicateur de la fraîcheur du lien, si l'on considère la théorie selon laquelle un lien de qualité n'est pas modifié lors des mises à jour d'un document s'il reste pertinent et de qualité".

Le poids de chaque lien peut donc être lié à sa fraîcheur, mais aussi à son degré supposé de confiance, et bien sûr à son autorité (PageRank) : "le poids des liens peut être déterminé par d'autre méthodes. Par exemple, le poids assigné aux liens peut être une fonction de la confiance (trust) accordée aux documents contenant les liens (les documents gouvernementaux peuvent bénéficier d'un haut degré de confiance). Le poids des liens peut aussi être déterminé en fonction du degré d'autorité des documents contenant les liens (...) Le poids des liens peut également être modulé en fonction de la fraîcheur des documents contenant les liens, fraîcheur qui est déterminée par d'autre critères (comme le fait qu'un document , par exemple la page d'accueil Yahoo, soit fréquemment mis à jour)".

Le brevet note également que les liens sont en constante évolution, et propose des méthodes pour en tenir compte et mieux évaluer les documents : "une autre technique peut être de considérer la distribution dans le temps des liens pointant vers un document. En d'autres termes, la date de création des liens pointant vers un document peut être utilisée pour établir une fonction de distribution. On peut penser que la forme de cette distribution est très différente pour un document stagnant et pour un document frais. Le moteur de recherche peut attribuer un score aux documents basé au moins en partie sur cette distribution des âges des liens pointant vers les documents.

Les dates d'apparition des liens peuvent également être utilisées pour détecter le spam, lorsque les propriétaires des documents et leurs confrères créent des liens vers leurs propres documents dans le but d'augmenter le score attribué par les moteurs de recherche. Un document légitime typique ne génère des liens entrants que progressivement. Une hausse brutale du nombre de liens entrants peut signifier un phénomène d'actualité (...) ou bien une tentative de spam des moteurs de recherche par l'échange de liens, l'achat de liens ou l'établissement de liens sur des sites sans contrôle éditorial. Des exemples de ce genre de sites incluent les livres d'or, les top referers, et les pages "free for all" qui permettent à n'importe qui d'ajouter un lien vers un document". L'analyse des liens joue donc dans les deux sens, celui de la recherche de la pertinence, et celui de la lutte contre le spam.

"Selon une autre implémentation, l'analyse peut prendre en compte la date de disparition des liens. La disparition d'un grand nombre de liens peut signifier que le document vers lequel pointaient ces liens est obsolète (plus mis à jour, ou remplacé par un autre document). Par exemple, le moteur de recherche peut considérer la date à laquelle disparaissent un ou plusieurs liens pointant vers un document, le nombre de liens disparaissant pendant une période donnée, ou tout autre baisse tendancielle du nombre de liens d'un document (...) pour identifier les documents devant être considérés comme obsolètes. Une fois qu'un document est considéré comme obsolète, les liens contenus dans ce document peuvent être dévalorisés ou ignorés par le moteur de recherche dans la détermination des scores des documents liés".

Enfin, "selon une autre implémentation, l'analyse peut prendre en compte non seulement l'âge des liens pointant vers un document, mais également la dynamique de ces liens. Le moteur de recherche peut ainsi assigner un poids aux documents affichant un lien différent chaque jour qui sera inférieur à celui des documents fréquemment mis à jour, mais liant de façon stable un document". En d'autres termes, les liens stables sont préférables aux liens aléatoires.

29/09/2008

Un brevet Google sur la prise en compte des données historiques (1ère partie - datation et requêtes)

Le brevet "Information retrieval based on historical data" déposé par Google en 2005 et mis à jour en mars 2008 a suscité un intérêt certain dans la "SEOsphère" américaine. Les commentaires de William Slawski sur son blog et Tedster sur Webmaster World constituent en particulier des lectures très intéressantes. Ce brevet décrit différentes méthodes pour évaluer la pertinence de pages web (ainsi que celle d'autres documents) en se basant au moins en partie sur l'historique des pages. Ainsi, selon ses auteurs, "les systèmes et méthodes en accord avec les principes décrits dans l'invention peuvent attribuer un score à des documents basé au moins en partie sur les données historiques relatives à ces documents. Ce scoring peut être utilisé pour améliorer les résultats de recherche en relation avec une requête".

Je me livrerai ici à une traduction de quelques passages clés, assortie de quelques brefs commentaires. Le brevet étant long et sa lecture ardue, cette traduction sera divisée en plusieurs parties. Il faut bien garder à l'esprit qu'il ne s'agit que d'un brevet : il n'est pas certain que les méthodes décrites soient effectivement employées par le moteur. Mais elles apportent néanmoins un éclairage sur la façon dont peut "penser" un moteur.

Les critères relatifs à la date d'origine des documents (inception date)

La date d'origine d'un document constitue un premier critère pouvant être pris en compte dans l'évaluation (scoring) d'un document. Plusieurs dates sont susceptibles d'être utilisées comme date d'origine : il peut s'agir de la date de création du document, de la date de mise en ligne, de la date de première indexation, de la date de découverte du premier lien pointant vers le document, de la date à laquelle un document atteint une certaine taille, voire d'une combinaison de plusieurs de ces critères.

Le brevet précise que "le moteur de recherche peut utiliser la date d'origine du document pour lui attribuer un score. Par exemple, on peut penser qu'un document créé récemment ne bénéficiera pas d'un grand nombre de liens en provenance d'autres documents (backlinks). Avec les technique de scoring existantes basées sur l'analyse du nombre de liens entrants et sortants des documents, un document créé récemment pourrait se voir attribuer un score inférieur à celui d'un vieux document bénéficiant de beaucoup de liens entrants. Quand les dates d'origine des documents sont considérées, les scores des documents peuvent alors être ajustés à la hausse ou à la baisse, en fonctions de ces dates". Cette méthode permet donc de réduire le biais dont jouissent les vieux documents qui ont pu attirer davantage de liens au cours du temps.

La date d'origine peut également être prise en compte dans l'évaluation des liens pointant vers un document. "Ainsi, selon une implémentation en accord avec les principes décrits dans l'invention, le moteur de recherche peut utiliser la date d'origine d'un document pour déterminer un taux selon lequel les liens vers le document sont créés (par exemple en faisant une moyenne par unité de temps du nombre de liens créés depuis sa date d'origine, ou durant une période donnée). Ce taux peut être utilisé pour évaluer un document, par exemple en donnant plus de poids aux documents liés plus souvent". La fréquence moyenne de création des liens vers une page web est donc susceptible d'être utilisée comme un indicateur de pertinence par Google.

Enfin, pour certaines requêtes, le brevet précise que "les vieux documents peuvent être préférables aux nouveaux. Il peut donc être bénéfique d'ajuster le score d'un document en se basant sur la différence d'âge entre le document et la moyenne de tous les autres documents".

Les critères relatifs aux requêtes tapées par les utilisateurs

La pertinence d'un document s'évalue par rapport à une requête. Le brevet décrit plusieurs méthodes se basant sur les requêtes (mots et expressions-clés) des utilisateurs.

Ainsi, "Selon une implémentation en accord avec les principes décrits dans l'invention, un ou plusieurs facteurs associés aux requêtes peuvent être utilisés pour déterminer (ou altérer) le score associé à un document. Par exemple un de ces facteurs peut être la fréquence à laquelle le document est sélectionné lorsqu'il est présent dans un set de résultats. Dans ce cas, le moteur de recherche peut attribuer un score plus élevé aux documents sélectionnés plus souvent ou de plus en plus fréquemment par les utilisateurs". On retrouve là l'idée ancienne (cf Direct Hit) qu'un document selectionné fréquemment par des utilisateurs humains dans une page de résultats est à priori pertinent. Il est intéressant de constater que les tendances des clics peuvent également constituer un critère de pertinence. Le moteur peut donc adapter ses résultat à l'évolution des comportements.

Le fait pour un contenu d'appartenir à une thématique faisant l'objet de nombreuses recherches à un moment donné peut également être pris en compte : "un autre de ces facteurs peut concerner l'apparition dans le temps de certains termes de recherche dans les requêtes. Un groupe de termes de recherche peut apparaître de plus en plus fréquemment à un moment donné. Par exemple, les termes relatifs à un thème gagnant ou ayant gagné en popularité, ou relatifs à une actualité importante ont vocation à apparaître plus fréquemment dans les requêtes. Dans ce cas, le moteur de recherche peut attribuer aux documents associés à ces termes de recherche un score plus élevé que celui attribué aux documents qui ne sont pas associés à ces termes".

La détermination de l'intérêt pour un thème peut se mesurer non seulement via les requêtes des utilisateurs, mais également par les évolutions de l'index : le brevet précise ainsi "qu'un autre facteur peut concerner l'évolution au cours du temps du nombre de résultats de recherche retournés pour des requêtes similaires. Une hausse significative du nombre de résultats de recherche retourné pour des requêtes similaires par exemple peut indiquer un thème émergent ou une actualité importante, et amener le moteur de recherche à attribuer un score plus élevé aux documents relatifs à ces requêtes".

Enfin l'étendue du nombre de requêtes sur lequel ressort un document et son évolution peut aussi constituer un critère pour le moteur, notamment en ce qui concerne la lutte contre le spam : "un autre facteur peut concerner la propension d'un document à apparaître dans les résultats de recherche pour différentes requêtes. En d'autres termes, l'entropie des requêtes pour un ou plusieurs documents peut être analysées et exploitée pour établir un score. Par exemple, si un document apparaît comme potentiellement pertinent pour un ensemble discordant de requêtes, cela peut être considéré comme un signal que le document est du spam (même si ce n'est pas forcément le cas). Dans ce cas le moteur de recherche peut réduire le score du document".

Voila pour cette première partie. Dans la prochaine, nous verrons les critères relatifs aux liens entre pages web.

19/09/2008

Obscure clarté (ou la brève de comptoir du vendredi)

Le référencement white hat, finalement, c'est la face cachée du coté obscur ;)

17/09/2008

Etude Ipsos sur les usages du web en 2008

L'étude Profiling 2008 menée par Ipsos fournit des statistiques intéressantes sur les usages du web en France.

J'en retiens principalement que la recherche d'information constitue toujours le premier usage d'internet : 77% des internautes affirment ainsi avoir recherché des informations pratiques au cours des 30 derniers jours, et 74% des informations en rapport avec l'actualité. La recherche d'informations liées à l'actualité est d'ailleurs en forte progression depuis 2 ans (+23 points).

15/09/2008

Google tue le mythe des pénalités pour duplicate content

Alors que la question du duplicate content (en français la duplication de contenu) inquiète de plus en plus les webmasters, Google tente de mettre les choses au clair dans un billet intitulé "Demystifying the duplicate content penalty".

Sur ce point, Google est on ne peut plus explicite : "il n'existe pas de pénalité pour cause de contenu dupliqué". Il existe certes des pénalités concernant la reprise, autorisée ou non, de contenus par certains site. Mais ce qui est désigné généralement sous le terme de duplicate content, c'est-à-dire le fait pour un même contenu d'être accessible via plusieurs URLs sur un même site, ne saurait faire l'objet de pénalités. Google reconnaît cependant que la présence de duplicate content peut parfois affecter la performance d'un site, même si le moteur se débrouille en général plutôt bien pour déterminer l'URL la plus pertinente et lui transférer les données relatives à la popularité des pages doublons.

En conclusion, Google recommande de ne pas s'inquiéter plus que nécessaire du duplicate content, tout en indiquant quelques moyens simples pour l'éviter. Google précise qu'il n'est pas utile non plus de soumettre une demande de réinclusion une fois un problème de duplicate content résolu (logique, puisque qu'il n'y a pas de pénalité).

Edit : Goopilation a traduit le billet de Google.

12/09/2008

Plume interactive, un blog sur la rédaction web

Plume Interactive est un blog que j'ai récemment découvert grâce à l'interview de son auteur par Eric Dupin.

Eve Demange y parle d'écriture web (ou plutôt d'ergonomie éditoriale, pour reprendre sa propre terminologie) et fournit de nombreux conseils et exemples pour des contenus web plus lisibles, plus efficaces et mieux référencés.

Bref un blog qui rejoint illico-presto mon agrégateur, à coté de ceux de Jean-Marc et Muriel (entre autres).

10/09/2008

Référencement : à quelles évolutions s'attendre ?

Vendredi dernier avait donc lieu l'université d'été organisée par la société Medialibs sur le thème de l'avenir du web. Un grand merci aux organisateurs ainsi qu'au public, pour cette journée très sympathique :)

Le compte-rendu complet de ma présentation ainsi que son support sont disponibles sur le tout nouveau blog Relevant Traffic, aussi me livrerai-je ici qu'à une rapide synthèse.

Un premier constat est que les technologies actuellement utilisées par les moteurs reposent sur des travaux menés il y a environ 25 ans en ce qui concerne l'analyse de l'information, et il y a 10 ans pour ce qui est de l'analyse des réseaux de liens. Même si les algorithmes des moteurs de recherche s'affinent sans cesse, les principes de bases qu'ils utilisent ne sont pas si "high-tech" qu'on pourrait le penser. En conséquence de cela, les fondamentaux du référencement restent les mêmes : contenu, structure et popularité représentent toujours la sainte trinité du SEO (même si les modalités d'application de ces fondamentaux évoluent).

Quelques changements sont à noter cependant. La recherche universelle en particulier tend à s'affirmer, et offre de nouvelles possibilités d'être visible, que ce soit via les données cartographiques, les images, les actualités, les vidéos etc. Il ne faut donc pas hésiter à exploiter ces leviers lorsque cela est pertinent tout en ayant à l'esprit que la page web reste le document de référence.

Au niveau du marché des moteurs de recherche, Google domine, et je pense dominera encore longtemps. Je suis plus que sceptique sur une évolution rapide de ce coté, et je ne suis pas le seul semble-t-il.

Une autre chose que je peux prédire sans trop de risque est que l'on entendra encore beaucoup de bruit dans le milieu du search marketing : la fin du référencement sera une nouvelle fois évoquée en 2009, de même que les bouleversements induits par les réseaux sociaux et le référencement de Flash. Il y aura toujours un peu de vrai dans tout ce buzz, mais les bonnes pratiques d'aujourd'hui resteront à mon humble avis valables demain.

3/09/2008

Ainsi on pense pouvoir être consultant SEO ?

A la recherche de consultants SEO seniors, l'agence Résoneo vient de lancer un quizz permettant de tester si l'on est bien taillé pour le métier. Apparament, j'ai les compétences nécessaires (ouf, voila qui justifie mon salaire).

Bien sûr ce n'est pas très sérieux (quoique les questions posées sont pertinentes...) mais c'est divertissant, et la fin du test dénote une vision très saine du métier. Je n'en dis pas plus ;)

Alors vous avez gagné combien d'étoiles ?

2/09/2008

Ce que Google Chrome pourrait nous apprendre en matière de référencement (ou pas)

Google Chrome, le navigateur développé par Google, est donc sur le point d'être rendu public. Les fonctionnalités d'un navigateur concernent à priori l'expérience utilisateur, et le lien avec le référencement n'est pas évident à première vue. Néanmoins il me semble que certaines technologies développées pour Chrome pourraient éventuellement être utilisée par le moteur pour améliorer la pertinence de ses pages de résultats. Je dis bien "éventuellement" : les idées que j'émets ici ne sont que pure spéculation. Je m'explique :

Les tests de navigation ont utilisé l'infrastructure informatique Google, et on porté sur sur des dizaines de milliers de pages : nous savons donc désormais que Google est capable de simuler à grande échelle l'utilisation d'un navigateur ordinaire par des utilisateurs humains.

Les tests de rendu ont été effectués non pas à l'aide de captures d'écrans, mais grâce à une analyse de l'apparence des pages : Google serait donc capable de "voir" comme un utilisateur, ce qui lui permettrait de distinguer les zones de contenu des zones à faible rapport signal / bruit comme les pieds de page, et de débusquer les contenus cachés.

Une machine virtuelle javascript à haute performance a été développée : Google est donc potentiellement capable d'interpréter javascript plus efficacement et en toute sécurité. Cela pourrait améliorer sa capacité à détecter les javascripts employés à des fins de spam (redirections sournoises, cloaking javascript etc.) ainsi que sa capacité à indexer des sites utilisant des navigations reposant sur javascript.

On peut cependant penser que si ces technologies sont bien mises en oeuvre au niveau moteur, elles ne le seront pas systématiquement, mais seulement sur un petit nombre de sites (à l'échelle du web) préalablement selectionnés soit parce qu'ils sont essentiels à l'index, soit au contraire parce qu'ils sont suspects.

Qu'en pensez-vous ?

Google sur le point de lancer son navigateur Chrome

Le sujet était évoqué régulièrement, certains y croyant, d'autre étant plus sceptiques (dont moi, je dois bien l'avouer). Mais Google s'apprète bien à lancer son navigateur, en version beta et en open-source, dans 100 pays.

En lisant la BD d'introduction à Chrome, on y apprend un certain nombre de choses très intéressantes : ainsi, le moteur de Chrome est basé sur Webkit, un navigateur open-source également utilisé dans Safari. Etant donné que javascript est une technologie abondamment utilisée aujourd'hui pour les interface web, Chrome bénéficie d'une machine virtuelle javascript écrite à partir de zéro, et spécialement optimisée pour les applications javascript complexes. Ainsi au lieu d'interprêter le code javascript et de l'exécuter, Chrome le compile à la volée en langage machine, ce qui permet son éxécution directe par le CPU, d'où une plus grande rapidité

Un gros accent a été mis sur la stabilité : chaque page web et chaque javascript sont exécutés dans des processus séparés, ce qui permet une meilleure gestion de la mémoire, de meilleurs temps de réponses, et surtout permet en cas de bug de fermer uniquement le processus defectueux au lieu de planter le navigateur.

En ce qui concerne l'interface, les onglets sont un concept clé de Chrome, au point que ceux-ci ont été placé au sommet du navigateur. Il est possible de les déplacer d'une fenêtre à une autre, et chaque onglet comprend ses propres controles (barre d'adresse , boutons précédent / suivant ...). La barre d'adresse va au delà de la simple gestion des URLs et a été baptisée "Omnibox". On y retrouve toutes sortes d'informations : suggestions de recherches, historique des recherches et des visites etc.

La plupart des navigateurs proposent une page par défaut, qui peut être une page blanche ou une URL spécifiée par l'utilisateur. Google Chrome propose une page par défaut générée dynamiquement, qui affiche les 9 sites les plus visités, et les formulaires de recherche les plus utilisés.

Un mode "incognito" a également été implémenté, qui permet d'ouvrir une fenêtre ou rien, ni historique no cookies, ne sera enregistré sur la machine. Enfin, Chrome comprend plusieurs dispositifs destinés à protégér l'utilisateurs des malware et du phishing.

Une dernière chose à noter est que si le navigateur est en version beta, les versions de développement on été testées... par des machines ! Utilisant son infrastructure informatique, Google est ainsi capable dans les 20 à 30 minutes de tester chaque release sur des dizaines de milliers de pages différentes fréquemment visitées par les internautes. Même le rendu des pages a été testé de façon automatique, et Chrome est capable de passer avec succès plus de 99% des tests de rendu de Webkit.

A lire également sur l'impact vis-à-vis de Firefox : "A propos de Google Chrome et du reste" par Tristan Nitot. Et quelques captures d'écran et vidéos sur Techcrunch.

Edit : on peut désormais télécharger Google Chrome.