Lors du précédent billet sur l'analyse du brevet Google intitulé "Information retrieval based on historical data" nous avons vu que les critères relatifs à la date d'origine des documents et au requêtes des utilisateurs pouvaient être pris en compte par le moteur de recherche. Dans ce billet, je me suis intéressé plus spécifiquement à la section du brevet relative aux liens entre documents.

Le brevet explique ainsi "qu'en analysant l'évolution dans le temps des liens pointant vers un document ou émanant de celui-ci, le moteur de recherche peut ajuster son score en conséquence. Par exemple, une tendance à la baisse du nombre de nouveaux liens ou du taux de création des nouveaux liens peut signifier qu'un document est stagnant (stale), auquel cas son score peut être revu à la baisse. A l'inverse, une tendance à la hausse du nombre de nouveaux liens peut signaler un document "frais" (dont le contenu est récent, ou a été révisé il y a peu), pouvant être considéré comme davantage pertinent en fonction du contexte et de l'implémentation". "Stagnant" dans le contexte du brevet signifie par exemple un document qui n'est plus actualisé, qui a perdu de son importance, ou qui est devenu obsolète du fait de la publication d'un autre document".

Tous les liens ne sont pas égaux poursuit le brevet : "selon une autre implémentation, l'analyse peut prendre en compte un poids assigné aux liens. Dans ce cas, chaque lien peut voir son poids modulé par une fonction qui s'accroît avec la fraîcheur du lien. La fraîcheur de ce lien peut être déterminée en fonction de la date d'apparition ou de modification du lien, de la date d'apparition ou de modification de l'ancre texte du lien, de la date d'apparition ou de modification du document contenant le lien. Cette date d'apparition ou de changement du document contenant le lien peut d'ailleurs constituer un meilleur indicateur de la fraîcheur du lien, si l'on considère la théorie selon laquelle un lien de qualité n'est pas modifié lors des mises à jour d'un document s'il reste pertinent et de qualité".

Le poids de chaque lien peut donc être lié à sa fraîcheur, mais aussi à son degré supposé de confiance, et bien sûr à son autorité (PageRank) : "le poids des liens peut être déterminé par d'autre méthodes. Par exemple, le poids assigné aux liens peut être une fonction de la confiance (trust) accordée aux documents contenant les liens (les documents gouvernementaux peuvent bénéficier d'un haut degré de confiance). Le poids des liens peut aussi être déterminé en fonction du degré d'autorité des documents contenant les liens (...) Le poids des liens peut également être modulé en fonction de la fraîcheur des documents contenant les liens, fraîcheur qui est déterminée par d'autre critères (comme le fait qu'un document , par exemple la page d'accueil Yahoo, soit fréquemment mis à jour)".

Le brevet note également que les liens sont en constante évolution, et propose des méthodes pour en tenir compte et mieux évaluer les documents : "une autre technique peut être de considérer la distribution dans le temps des liens pointant vers un document. En d'autres termes, la date de création des liens pointant vers un document peut être utilisée pour établir une fonction de distribution. On peut penser que la forme de cette distribution est très différente pour un document stagnant et pour un document frais. Le moteur de recherche peut attribuer un score aux documents basé au moins en partie sur cette distribution des âges des liens pointant vers les documents.

Les dates d'apparition des liens peuvent également être utilisées pour détecter le spam, lorsque les propriétaires des documents et leurs confrères créent des liens vers leurs propres documents dans le but d'augmenter le score attribué par les moteurs de recherche. Un document légitime typique ne génère des liens entrants que progressivement. Une hausse brutale du nombre de liens entrants peut signifier un phénomène d'actualité (...) ou bien une tentative de spam des moteurs de recherche par l'échange de liens, l'achat de liens ou l'établissement de liens sur des sites sans contrôle éditorial. Des exemples de ce genre de sites incluent les livres d'or, les top referers, et les pages "free for all" qui permettent à n'importe qui d'ajouter un lien vers un document". L'analyse des liens joue donc dans les deux sens, celui de la recherche de la pertinence, et celui de la lutte contre le spam.

"Selon une autre implémentation, l'analyse peut prendre en compte la date de disparition des liens. La disparition d'un grand nombre de liens peut signifier que le document vers lequel pointaient ces liens est obsolète (plus mis à jour, ou remplacé par un autre document). Par exemple, le moteur de recherche peut considérer la date à laquelle disparaissent un ou plusieurs liens pointant vers un document, le nombre de liens disparaissant pendant une période donnée, ou tout autre baisse tendancielle du nombre de liens d'un document (...) pour identifier les documents devant être considérés comme obsolètes. Une fois qu'un document est considéré comme obsolète, les liens contenus dans ce document peuvent être dévalorisés ou ignorés par le moteur de recherche dans la détermination des scores des documents liés".

Enfin, "selon une autre implémentation, l'analyse peut prendre en compte non seulement l'âge des liens pointant vers un document, mais également la dynamique de ces liens. Le moteur de recherche peut ainsi assigner un poids aux documents affichant un lien différent chaque jour qui sera inférieur à celui des documents fréquemment mis à jour, mais liant de façon stable un document". En d'autres termes, les liens stables sont préférables aux liens aléatoires.