Le brevet "Information retrieval based on historical data" déposé par Google en 2005 et mis à jour en mars 2008 a suscité un intérêt certain dans la "SEOsphère" américaine. Les commentaires de William Slawski sur son blog et Tedster sur Webmaster World constituent en particulier des lectures très intéressantes. Ce brevet décrit différentes méthodes pour évaluer la pertinence de pages web (ainsi que celle d'autres documents) en se basant au moins en partie sur l'historique des pages. Ainsi, selon ses auteurs, "les systèmes et méthodes en accord avec les principes décrits dans l'invention peuvent attribuer un score à des documents basé au moins en partie sur les données historiques relatives à ces documents. Ce scoring peut être utilisé pour améliorer les résultats de recherche en relation avec une requête".

Je me livrerai ici à une traduction de quelques passages clés, assortie de quelques brefs commentaires. Le brevet étant long et sa lecture ardue, cette traduction sera divisée en plusieurs parties. Il faut bien garder à l'esprit qu'il ne s'agit que d'un brevet : il n'est pas certain que les méthodes décrites soient effectivement employées par le moteur. Mais elles apportent néanmoins un éclairage sur la façon dont peut "penser" un moteur.

Les critères relatifs à la date d'origine des documents (inception date)

La date d'origine d'un document constitue un premier critère pouvant être pris en compte dans l'évaluation (scoring) d'un document. Plusieurs dates sont susceptibles d'être utilisées comme date d'origine : il peut s'agir de la date de création du document, de la date de mise en ligne, de la date de première indexation, de la date de découverte du premier lien pointant vers le document, de la date à laquelle un document atteint une certaine taille, voire d'une combinaison de plusieurs de ces critères.

Le brevet précise que "le moteur de recherche peut utiliser la date d'origine du document pour lui attribuer un score. Par exemple, on peut penser qu'un document créé récemment ne bénéficiera pas d'un grand nombre de liens en provenance d'autres documents (backlinks). Avec les technique de scoring existantes basées sur l'analyse du nombre de liens entrants et sortants des documents, un document créé récemment pourrait se voir attribuer un score inférieur à celui d'un vieux document bénéficiant de beaucoup de liens entrants. Quand les dates d'origine des documents sont considérées, les scores des documents peuvent alors être ajustés à la hausse ou à la baisse, en fonctions de ces dates". Cette méthode permet donc de réduire le biais dont jouissent les vieux documents qui ont pu attirer davantage de liens au cours du temps.

La date d'origine peut également être prise en compte dans l'évaluation des liens pointant vers un document. "Ainsi, selon une implémentation en accord avec les principes décrits dans l'invention, le moteur de recherche peut utiliser la date d'origine d'un document pour déterminer un taux selon lequel les liens vers le document sont créés (par exemple en faisant une moyenne par unité de temps du nombre de liens créés depuis sa date d'origine, ou durant une période donnée). Ce taux peut être utilisé pour évaluer un document, par exemple en donnant plus de poids aux documents liés plus souvent". La fréquence moyenne de création des liens vers une page web est donc susceptible d'être utilisée comme un indicateur de pertinence par Google.

Enfin, pour certaines requêtes, le brevet précise que "les vieux documents peuvent être préférables aux nouveaux. Il peut donc être bénéfique d'ajuster le score d'un document en se basant sur la différence d'âge entre le document et la moyenne de tous les autres documents".

Les critères relatifs aux requêtes tapées par les utilisateurs

La pertinence d'un document s'évalue par rapport à une requête. Le brevet décrit plusieurs méthodes se basant sur les requêtes (mots et expressions-clés) des utilisateurs.

Ainsi, "Selon une implémentation en accord avec les principes décrits dans l'invention, un ou plusieurs facteurs associés aux requêtes peuvent être utilisés pour déterminer (ou altérer) le score associé à un document. Par exemple un de ces facteurs peut être la fréquence à laquelle le document est sélectionné lorsqu'il est présent dans un set de résultats. Dans ce cas, le moteur de recherche peut attribuer un score plus élevé aux documents sélectionnés plus souvent ou de plus en plus fréquemment par les utilisateurs". On retrouve là l'idée ancienne (cf Direct Hit) qu'un document selectionné fréquemment par des utilisateurs humains dans une page de résultats est à priori pertinent. Il est intéressant de constater que les tendances des clics peuvent également constituer un critère de pertinence. Le moteur peut donc adapter ses résultat à l'évolution des comportements.

Le fait pour un contenu d'appartenir à une thématique faisant l'objet de nombreuses recherches à un moment donné peut également être pris en compte : "un autre de ces facteurs peut concerner l'apparition dans le temps de certains termes de recherche dans les requêtes. Un groupe de termes de recherche peut apparaître de plus en plus fréquemment à un moment donné. Par exemple, les termes relatifs à un thème gagnant ou ayant gagné en popularité, ou relatifs à une actualité importante ont vocation à apparaître plus fréquemment dans les requêtes. Dans ce cas, le moteur de recherche peut attribuer aux documents associés à ces termes de recherche un score plus élevé que celui attribué aux documents qui ne sont pas associés à ces termes".

La détermination de l'intérêt pour un thème peut se mesurer non seulement via les requêtes des utilisateurs, mais également par les évolutions de l'index : le brevet précise ainsi "qu'un autre facteur peut concerner l'évolution au cours du temps du nombre de résultats de recherche retournés pour des requêtes similaires. Une hausse significative du nombre de résultats de recherche retourné pour des requêtes similaires par exemple peut indiquer un thème émergent ou une actualité importante, et amener le moteur de recherche à attribuer un score plus élevé aux documents relatifs à ces requêtes".

Enfin l'étendue du nombre de requêtes sur lequel ressort un document et son évolution peut aussi constituer un critère pour le moteur, notamment en ce qui concerne la lutte contre le spam : "un autre facteur peut concerner la propension d'un document à apparaître dans les résultats de recherche pour différentes requêtes. En d'autres termes, l'entropie des requêtes pour un ou plusieurs documents peut être analysées et exploitée pour établir un score. Par exemple, si un document apparaît comme potentiellement pertinent pour un ensemble discordant de requêtes, cela peut être considéré comme un signal que le document est du spam (même si ce n'est pas forcément le cas). Dans ce cas le moteur de recherche peut réduire le score du document".

Voila pour cette première partie. Dans la prochaine, nous verrons les critères relatifs aux liens entre pages web.