Suite à mon coup de gueule sur Webmaster-Hub, Sébastien m'a demandé de développer un peu mes idées sur la méthode LSI. J'ai accepté cette invitation qui m'honore, en me disant que les lecteurs de ce blog pouvaient effectivement être intéressés par le sujet.

Pourquoi parle-t'on autant de LSI ?

Curieusement, alors qu'il existe de nombreux outils en linguistique statistique, LSI est le seul dont le nom est connu de la plupart des référenceurs (surtout parmi les lecteurs des forums anglo-saxons comme Webmasterworld). Depuis 2002-2003, à chaque changement important dans les classements sur Google, l'intégration de LSI dans l'algorithme de Google est systématiquement fournie comme une explication possible. Plus récemment, et sans doute parce que c'est le seul outil d'analyse statistique sémantique connu dans le monde des SEO, on a associé LSI à l'opérateur tilde (~) qui permet de faire des recherches sur des termes "sémantiquement reliés" à ceux de la requête sur Google.

Disons le tout de suite : l'opérateur tilde n'a rien à voir avec LSI. Et chaque fois que l'on a demandé aux gens de Google si LSI était réellement utilisé dans leur moteur, ceux-ci ont toujours fini par répondre que non. Ce qui ne signifie d'ailleurs pas qu'ils n'utilisent pas une méthode cousine, même si beaucoup de contre-arguments tendent à laisser penser que l'existence de "méta structures sémantiques" dans les documents n'est pas du tout utilisée dans l'algorithme actuel du moteur.

De la confusion à l'exploitation de la crédulité des webmasters

Le monde des SEO est dominé par de nombreux gourous autoproclamés qui ont le défaut de ne pas avoir l'esprit "scientifique" et sont donc parfaitement capables d'avancer des explications sans arguments ni preuves. Les Danny Sullivan, Mike Grehan et autres Brett Tabke font un peu exception, mais leurs voix sont trop souvent couvertes par celles de cuistres dont le discours simpliste s'avère, hélas, plus séduisant.

On peut regretter cet état de fait, mais on n'y peut pas grand chose, tant le webmaster lambda est à l'affut de recettes de cuisine toutes faites pour améliorer son positionnement, plutôt que de se plonger dans des articles ardus. Le plus souvent, cela m'amuse, ou me consterne, mais ne déclenche pas de réactions particulières chez moi.

Certaines dérives récentes observées chez les SEO américains m'ont cependant fait sortir du bois, pour mettre en garde le monde des webmasters francophones. Quelques jours après mon coup de gueule, Mike Grehan a lui aussi pondu un article à la teneur quasi identique sur ClickZ, ce qui m'a conforté dans l'idée que le problème existait bien.

En effet, on voit de plus en plus apparaître des outils et des méthodes, de référencement basées sur "l'algorithme LSI" (je préfère parler de "méthode", le terme "algorithme" étant inapproprié dans ce contexte). Certains de ces outils et de ces méthodes sont payants. Il s'agit parfois de pures escroqueries : je suis ainsi tombé sur un outil estampillé LSI qui utilisait de simples calculs de taux de co-occurence, sans normalisation en plus ! En général, on a surtout affaire à des gens qui, soit connaissent mal la méthode et sont donc susceptibles de fournir des résultats dangereux, soit ont l'air de savoir comment ça marche, mais proposent un outil qui aura surtout un effet placebo sur le référencement d'un site.

Dans le meilleur des cas, LSI est utilisé comme un argument marketing. Même dans ce cas, c'est malhonnête et dangereux.

Le virus LSI a déjà contaminé l'espace francophone : La newsletter commerciale d'un de ces charlatans a été commentée sur Webrankinfo, avec un peu plus de prudence que ce que l'on lit sur les forums anglo-saxons, mais sans doute pas assez. Résultat : les affirmations contenues dans cet article sont déjà prises pour argent comptant.

Mais qu'est-ce que LSI ?

La méthode LSI (Latent Semantic Indexing), parfois aussi appelée LSA (Latent Semantic Analysis) est un outil de statistique appliqué à la linguistique, inventé par Susan Dumais à la fin des années 1980. Je précise au passage que Susan Dumais est un éminent chercheur de... Microsoft, et non de Google. Elle est à l'origine de nombreux projets de recherche sur les systèmes d'information chez le géant de Redmond, dont certains mériteraient sans doute plus d'attention de la part des référenceurs, trop occupés à railler la qualité des résultats actuels de Live Search au lieu de se pencher sur ce qui se prépare derrière...

La méthode a été décrite pour la première fois dans un article publié en 1990 dans le "Journal of the Society for Information Science", sous la signature également de S. Deerwester, G. W. Furnas, T. K. Landauer, et R. Harshman (rendons à César...). C'est donc tout sauf une invention récente.

Cette méthode repose sur une hypothèse, une intuition (dont les fondements théoriques mériteraient une discussion, mais qui nous entrainerait trop loin) : il existe plusieurs niveaux d'abstraction, plusieurs niveaux d'ordre, dans un texte.

Au plus bas niveau d'abstraction, un texte est ordonné par des règles liées à la syntaxe et la grammaire d'une langue. Si on effectue une analyse statistique de la fréquence d'apparition des termes dans un document et dans un corpus, on obtient des résultats qui sont donc très influencés par la structure syntaxique et grammaticale de la langue.

Mais les textes ont un "sens", ce qui signifie qu'il existe aussi une relation liée à ce "sens" entre les mots utilisés dans un texte donné.

J'ai mis "sens" entre guillemets car le "sens" à donner au mot "sens" varie beaucoup selon le contexte. En réalité, un terme peut avoir un "sens", une expression aussi, une phrase, un groupe de phrases, un passage d'un livre, etc. Bref, il n'existe pas un seul niveau sémantique ordonnant un texte, mais beaucoup plus ...

La méthode LSI a pour objectif d'évaluer par des méthodes statistiques le niveau de corrélation entre les termes d'un texte donné, en essayant de faire disparaître le "bruit" lié aux corrélations issues du plus bas niveau d'abstraction (les corrélations mécaniques dues à la "musique" de la langue), pour faire apparaître au grand jour des associations liées à des niveaux d'abstraction supérieurs (en principe liées au "sens du texte").

Pour cela, la méthode LSI utilise des outils statistiques bien connus, que l'on utilise régulièrement pour découvrir des "corrélations" intéressantes cachées au milieu de données statistiques impossibles à interpréter au premier abord. D'autres méthodes du même genre utilisent l'Analyse en Composantes Principales, mais la méthode LSI s'appuie sur la Décomposition en valeurs singulières.

Regardons un peu sous le moteur

Décrire dans le détail la méthode dépasse franchement le cadre de cet article. Cela demanderait un premier exposé sur l'espace vectoriel de Salton et de solides connaissances de mes lecteurs en espaces vectoriels, calcul matriciel et en analyse statistique, ce qui ne doit pas être le cas de tous. Je me contenterai donc d'indiquer les grands principes.

Tout d'abord, la méthode LSI est une analyse d'un "sac de mots". L'expression signifie qu'elle ne tient aucun compte de l'ordre d'apparition des mots dans le texte, juste des statistiques de présence dans le texte analysé.

Les calculs sont effectués sur une matrice termes X documents, qui décrit les occurences de termes dans les documents. Ce type de matrices est aussi utilisé dans la méthode tf*idf.

La première phase des calculs consiste à transformer cette gigantesque matrice rectangulaire en trois sous-matrices (c'est là qu'intervient la décomposition en valeurs singulières). L'une des matrices contient les valeurs singulières. A ce stade, on peut choisir de réduire les dimensions des trois matrices en décidant de supprimer les coordonnées liées à des valeurs singulières faibles. Dans la méthode LSI, on ne retient en général que quelques centaines de résultats maximum, considérant qu'au delà, les corrélations trouvées sont du "bruit".

Le choix de la dimension finale k de la matrice étudiée est particulièrement important. La qualité des résultats obtenue est directement liée à cette donnée, la valeur de k devant être différente en fonction du contexte et de l'objectif poursuivi. En tout, il est important de ne pas se limiter à quelques dimensions seulement (parce que les relations entre termes sont trop complexes pour être ramenées à deux ou trois concepts par texte) et de savoir s'arrêter là où commence le bruit (c'est à dire ne plus tenir compte de corrélations sans importance, ou dues à d'autres choses que des relations liées au "sens").

Dans ce nouvel espace vectoriel de dimension k, on s'aperçoit que déjà, des documents sémantiquement proches se sont "rapprochés". C'est à dire qu'un calcul de similarité (un calcul de distance normalisé) donne des résultats plus proches.

Bref, on a diminué le bruit, et découvert des relations qui étaient cachées dans la matrice initiale. D'où le terme "latent" dans le nom de la méthode. En fait, les trois matrices décrivent à présent les relations entre termes et concepts d'une part, documents et concepts d'autre part. Cette notion de "concepts" est une interprétation grossière de la signification des valeurs singulières obtenues, le problème étant que les corrélations ainsi mise en valeur ont des origines diverses, certaines liées au "sens" du texte, mais pas toujours.

Les trois matrices de dimension réduites ainsi créées donnent des coordonnées qui permettent de faire aussi bien des analyses de similarité entre documents, entre termes, ou de relations termes x documents.

Il est également possible de positionner une "requête" dans l'espace vectoriel de dimension réduite k ainsi créé, et de regarder les documents les plus proches. Ce qui permet d'utiliser aussi cette méthode dans un outil de recherche... (C’est dans ce contexte que l’on parle de méthode LSI, au lieu de LSA).

LSI est-il utile au référencement ?

Certes, il est utile de connaître ces techniques si on est un référenceur professionnel. Pas pour s'en servir, mais pour comprendre comment fonctionne un outil de recherche.

De là à l'utiliser dans un objectif de référencement... Je ne suis pas sûr que le jeu en vaille la chandelle. D'autant plus qu'il me parait évident qu'une mauvaise utilisation d'un outil basé sur LSI nuira gravement au référencement. Surtout pour des gens qui pratiquent encore le "keyword stuffing".

Pour le webmaster lambda, c'est encore plus vrai. Créer du contenu intéressant est la méthode la plus directe pour être correctement référencé par un outil de recherche utilisant des outils de statistique linguistique évolués de ce genre. Pas d'essayer de truffer un texte de termes "corrélés" découverts par LSI, même si c'est possible sur le papier. Et même en sachant le faire, sachez que je ne cherche pas à utiliser ces techniques, que je considère comme une perte de temps.