Ne prenez pas LSI pour des lanternes, par Philippe Yonnet

Par Sébastien Billard, 9/10/2006 :: Référencement et moteurs :: #296 :: rss

Pour la première fois sur ce blog, je laisse la place à un auteur extérieur : Philippe Yonnet, directeur du département Internet du groupe Studyrama, est un passionné des algorithmes de recherche. Administrateur sur Webmaster-Hub, il est aussi l'auteur de nombreux articles sur le référencement dans les publications du Hub. Je lui laisse la parole :)

Suite à mon coup de gueule sur Webmaster-Hub, Sébastien m'a demandé de développer un peu mes idées sur la méthode LSI. J'ai accepté cette invitation qui m'honore, en me disant que les lecteurs de ce blog pouvaient effectivement être intéressés par le sujet.

Pourquoi parle-t'on autant de LSI ?

Curieusement, alors qu'il existe de nombreux outils en linguistique statistique, LSI est le seul dont le nom est connu de la plupart des référenceurs (surtout parmi les lecteurs des forums anglo-saxons comme Webmasterworld). Depuis 2002-2003, à chaque changement important dans les classements sur Google, l'intégration de LSI dans l'algorithme de Google est systématiquement fournie comme une explication possible. Plus récemment, et sans doute parce que c'est le seul outil d'analyse statistique sémantique connu dans le monde des SEO, on a associé LSI à l'opérateur tilde (~) qui permet de faire des recherches sur des termes "sémantiquement reliés" à ceux de la requête sur Google.

Disons le tout de suite : l'opérateur tilde n'a rien à voir avec LSI. Et chaque fois que l'on a demandé aux gens de Google si LSI était réellement utilisé dans leur moteur, ceux-ci ont toujours fini par répondre que non. Ce qui ne signifie d'ailleurs pas qu'ils n'utilisent pas une méthode cousine, même si beaucoup de contre-arguments tendent à laisser penser que l'existence de "méta structures sémantiques" dans les documents n'est pas du tout utilisée dans l'algorithme actuel du moteur.

De la confusion à l'exploitation de la crédulité des webmasters

Le monde des SEO est dominé par de nombreux gourous autoproclamés qui ont le défaut de ne pas avoir l'esprit "scientifique" et sont donc parfaitement capables d'avancer des explications sans arguments ni preuves. Les Danny Sullivan, Mike Grehan et autres Brett Tabke font un peu exception, mais leurs voix sont trop souvent couvertes par celles de cuistres dont le discours simpliste s'avère, hélas, plus séduisant.

On peut regretter cet état de fait, mais on n'y peut pas grand chose, tant le webmaster lambda est à l'affut de recettes de cuisine toutes faites pour améliorer son positionnement, plutôt que de se plonger dans des articles ardus. Le plus souvent, cela m'amuse, ou me consterne, mais ne déclenche pas de réactions particulières chez moi.

Certaines dérives récentes observées chez les SEO américains m'ont cependant fait sortir du bois, pour mettre en garde le monde des webmasters francophones. Quelques jours après mon coup de gueule, Mike Grehan a lui aussi pondu un article à la teneur quasi identique sur ClickZ, ce qui m'a conforté dans l'idée que le problème existait bien.

En effet, on voit de plus en plus apparaître des outils et des méthodes, de référencement basées sur "l'algorithme LSI" (je préfère parler de "méthode", le terme "algorithme" étant inapproprié dans ce contexte). Certains de ces outils et de ces méthodes sont payants. Il s'agit parfois de pures escroqueries : je suis ainsi tombé sur un outil estampillé LSI qui utilisait de simples calculs de taux de co-occurence, sans normalisation en plus ! En général, on a surtout affaire à des gens qui, soit connaissent mal la méthode et sont donc susceptibles de fournir des résultats dangereux, soit ont l'air de savoir comment ça marche, mais proposent un outil qui aura surtout un effet placebo sur le référencement d'un site.

Dans le meilleur des cas, LSI est utilisé comme un argument marketing. Même dans ce cas, c'est malhonnête et dangereux.

Le virus LSI a déjà contaminé l'espace francophone : La newsletter commerciale d'un de ces charlatans a été commentée sur Webrankinfo, avec un peu plus de prudence que ce que l'on lit sur les forums anglo-saxons, mais sans doute pas assez. Résultat : les affirmations contenues dans cet article sont déjà prises pour argent comptant.

Mais qu'est-ce que LSI ?

La méthode LSI (Latent Semantic Indexing), parfois aussi appelée LSA (Latent Semantic Analysis) est un outil de statistique appliqué à la linguistique, inventé par Susan Dumais à la fin des années 1980. Je précise au passage que Susan Dumais est un éminent chercheur de... Microsoft, et non de Google. Elle est à l'origine de nombreux projets de recherche sur les systèmes d'information chez le géant de Redmond, dont certains mériteraient sans doute plus d'attention de la part des référenceurs, trop occupés à railler la qualité des résultats actuels de Live Search au lieu de se pencher sur ce qui se prépare derrière...

La méthode a été décrite pour la première fois dans un article publié en 1990 dans le "Journal of the Society for Information Science", sous la signature également de S. Deerwester, G. W. Furnas, T. K. Landauer, et R. Harshman (rendons à César...). C'est donc tout sauf une invention récente.

Cette méthode repose sur une hypothèse, une intuition (dont les fondements théoriques mériteraient une discussion, mais qui nous entrainerait trop loin) : il existe plusieurs niveaux d'abstraction, plusieurs niveaux d'ordre, dans un texte.

Au plus bas niveau d'abstraction, un texte est ordonné par des règles liées à la syntaxe et la grammaire d'une langue. Si on effectue une analyse statistique de la fréquence d'apparition des termes dans un document et dans un corpus, on obtient des résultats qui sont donc très influencés par la structure syntaxique et grammaticale de la langue.

Mais les textes ont un "sens", ce qui signifie qu'il existe aussi une relation liée à ce "sens" entre les mots utilisés dans un texte donné.

J'ai mis "sens" entre guillemets car le "sens" à donner au mot "sens" varie beaucoup selon le contexte. En réalité, un terme peut avoir un "sens", une expression aussi, une phrase, un groupe de phrases, un passage d'un livre, etc. Bref, il n'existe pas un seul niveau sémantique ordonnant un texte, mais beaucoup plus ...

La méthode LSI a pour objectif d'évaluer par des méthodes statistiques le niveau de corrélation entre les termes d'un texte donné, en essayant de faire disparaître le "bruit" lié aux corrélations issues du plus bas niveau d'abstraction (les corrélations mécaniques dues à la "musique" de la langue), pour faire apparaître au grand jour des associations liées à des niveaux d'abstraction supérieurs (en principe liées au "sens du texte").

Pour cela, la méthode LSI utilise des outils statistiques bien connus, que l'on utilise régulièrement pour découvrir des "corrélations" intéressantes cachées au milieu de données statistiques impossibles à interpréter au premier abord. D'autres méthodes du même genre utilisent l'Analyse en Composantes Principales, mais la méthode LSI s'appuie sur la Décomposition en valeurs singulières.

Regardons un peu sous le moteur

Décrire dans le détail la méthode dépasse franchement le cadre de cet article. Cela demanderait un premier exposé sur l'espace vectoriel de Salton et de solides connaissances de mes lecteurs en espaces vectoriels, calcul matriciel et en analyse statistique, ce qui ne doit pas être le cas de tous. Je me contenterai donc d'indiquer les grands principes.

Tout d'abord, la méthode LSI est une analyse d'un "sac de mots". L'expression signifie qu'elle ne tient aucun compte de l'ordre d'apparition des mots dans le texte, juste des statistiques de présence dans le texte analysé.

Les calculs sont effectués sur une matrice termes X documents, qui décrit les occurences de termes dans les documents. Ce type de matrices est aussi utilisé dans la méthode tf*idf.

La première phase des calculs consiste à transformer cette gigantesque matrice rectangulaire en trois sous-matrices (c'est là qu'intervient la décomposition en valeurs singulières). L'une des matrices contient les valeurs singulières. A ce stade, on peut choisir de réduire les dimensions des trois matrices en décidant de supprimer les coordonnées liées à des valeurs singulières faibles. Dans la méthode LSI, on ne retient en général que quelques centaines de résultats maximum, considérant qu'au delà, les corrélations trouvées sont du "bruit".

Le choix de la dimension finale k de la matrice étudiée est particulièrement important. La qualité des résultats obtenue est directement liée à cette donnée, la valeur de k devant être différente en fonction du contexte et de l'objectif poursuivi. En tout, il est important de ne pas se limiter à quelques dimensions seulement (parce que les relations entre termes sont trop complexes pour être ramenées à deux ou trois concepts par texte) et de savoir s'arrêter là où commence le bruit (c'est à dire ne plus tenir compte de corrélations sans importance, ou dues à d'autres choses que des relations liées au "sens").

Dans ce nouvel espace vectoriel de dimension k, on s'aperçoit que déjà, des documents sémantiquement proches se sont "rapprochés". C'est à dire qu'un calcul de similarité (un calcul de distance normalisé) donne des résultats plus proches.

Bref, on a diminué le bruit, et découvert des relations qui étaient cachées dans la matrice initiale. D'où le terme "latent" dans le nom de la méthode. En fait, les trois matrices décrivent à présent les relations entre termes et concepts d'une part, documents et concepts d'autre part. Cette notion de "concepts" est une interprétation grossière de la signification des valeurs singulières obtenues, le problème étant que les corrélations ainsi mise en valeur ont des origines diverses, certaines liées au "sens" du texte, mais pas toujours.

Les trois matrices de dimension réduites ainsi créées donnent des coordonnées qui permettent de faire aussi bien des analyses de similarité entre documents, entre termes, ou de relations termes x documents.

Il est également possible de positionner une "requête" dans l'espace vectoriel de dimension réduite k ainsi créé, et de regarder les documents les plus proches. Ce qui permet d'utiliser aussi cette méthode dans un outil de recherche... (C’est dans ce contexte que l’on parle de méthode LSI, au lieu de LSA).

LSI est-il utile au référencement ?

Certes, il est utile de connaître ces techniques si on est un référenceur professionnel. Pas pour s'en servir, mais pour comprendre comment fonctionne un outil de recherche.

De là à l'utiliser dans un objectif de référencement... Je ne suis pas sûr que le jeu en vaille la chandelle. D'autant plus qu'il me parait évident qu'une mauvaise utilisation d'un outil basé sur LSI nuira gravement au référencement. Surtout pour des gens qui pratiquent encore le "keyword stuffing".

Pour le webmaster lambda, c'est encore plus vrai. Créer du contenu intéressant est la méthode la plus directe pour être correctement référencé par un outil de recherche utilisant des outils de statistique linguistique évolués de ce genre. Pas d'essayer de truffer un texte de termes "corrélés" découverts par LSI, même si c'est possible sur le papier. Et même en sachant le faire, sachez que je ne cherche pas à utiliser ces techniques, que je considère comme une perte de temps.

Commentaires

1. Le 9/10/2006, par Aymeric Jacquet :: site

Quand je dis à mes clients que le référencement, c'est un vrai métier, que ce n'est pas le mien et qu'il faut faire appel à des professionnels...

Traduction de la pharse au dessus : j'ai rien compris. :D

Ce n'est pas la faute de phillipe dont les explications sont claires, mais c'est comme si j'essayais de comprendre un document traitant de biochimie, de physique ou de mathématiques de haut niveau...

Du coups, je vais aller noyer ma honte out seul dans mon coin.

2. Le 9/10/2006, par Guillaume :: site

Merci pour cette présentation ! En parlant de "créer du contenu intéressant" je pense que tu mets la barre très haut !

3. Le 9/10/2006, par Sébastien Billard :: site

Je t'avouerais que je ne comprend pas tout non plus ;) mais c'est justement l'interêt de ce type d'article : creuser, se triturer les méninges et se rendre compte de la complexité du traitement automatisé de l'information (on est loin des des concepts de densité de mots-clés...). Les développements sur les espaces vectoriels sont très complexes, mais Philippe explique bien le principe de base ainsi que les conclusion à en tirer : il est plus intelligent de travailler son contenu de façon naturelle que de le bidouiller d'une façon pseudo-scientifique.

C'est d'ailleurs le coup de gueule de Philippe qui avait motivé mon récent billet "Visez la Lune, pas le doigt" : s.billard.free.fr/referen...

4. Le 9/10/2006, par tuf :: site

Magnifique!! je sais enfin ce que c'est que LSI.
J'avais finit par laisser tomber :)

5. Le 9/10/2006, par TOMHTML :: site

Même commentaire que "tuf", bien que je m'attendais à un exemple quelque part... m'enfin, merci pour l'article ;)

6. Le 10/10/2006, par mr_go

Après moultes relectures, je pense avoir compris sensiblement le concept, mais comme le dit Tomhtml, un exemple concret (ou semi-concret dirons nous étant donné la complexité de la chose) n'aurait pas été de refus. =)

Allez Sébastien, laisse M. Yonnet faire un deuxième post : "LSI compliquée cette notion qu'il fallait un exemple". ;)

7. Le 10/10/2006, par damien

Perso je trouve cette explication très complète et très très interressente.
C'est vrai que ça ouvre pas mal de portes et ça nous prouve aussi que l'on a encore beaucoup de chemin à faire sur le référencement.

Merci pour cet article que je trouve très simpa

8. Le 11/10/2006, par Daniel :: site

Pour moi, avec tout le respect du a l'article et a l'auteur bien sur.

Tout cela est un gros bol de soupe au lait.
L'idée d'analyser le fond d'un texte pour en extraire le sense, (analyse sémantique) est bien réel.
Mais elle gis depuis des années et aujourd'hui encore et a de belles annés encore devant elle.

A ce jour, en tant que réferenceur s'attacher a se pencher de trop prés sur tel ou tel technique s'y attachant est un fantasme et consiste a se mordre la queue est a intellectualiser de facon négative.

Je vais plus loin, en disant (c'est mon avis), qu'aucun moteur ne peut se permettre d'appliquer directement ces théories a leurs algos qui eux meme sont deja les plus au point pour executer se travail par une complexité qui déja les depassent un peu eux memes.

9. Le 11/10/2006, par Sébastien Billard :: site

Daniel c'est justement le propos de Philippe et le mien : Il est bien dit ici que cet algo n'est pas utilisé actuellement, et qu'il est douteux que des "méta structures sémantiques" soient utilisées.

Et je t'invite à lire ce précédent billet, où je dis notamment que "Spéculer sur les subtilités des algorithmes en négligeant les règles élémentaires de production de contenus web de qualité revient donc à regarder le doigt qui pointe la Lune, au lieu de la Lune elle-même !" : s.billard.free.fr/referen...

10. Le 11/10/2006, par Appollo

Bravo à vous deux Sébastien et Cariboo. Ce prolongement du post de cariboo sur le hub m'as permis de mieux cerner les techniques de sémantique.

11. Le 11/10/2006, par DavidD [1ère Position] :: site

Bon je n'ai pas tout compris non plus mais c'est très intéressant et enrichissant intellectuellement, cela n'est pas sans me rappeler les travaux connexes de Jean Véronis : aixtal.blogspot.com et de Jean-Luc MANGUIN : www.crisco.unicaen.fr sur le sens et le contexte de la recherche et des mots clés.

Sébastien que pense tu des les inviter sur ton blog, s’ils le souhaitent, à s’exprimer dans le cadre d’une série de 2 autres articles sur le sujet LSI ? Car définitivement ce sujet est passionnant et montre bien toutes les possibilités d'évolutions à venir des services des moteurs de recherche. En effet a part voir Google travailler d'arrache pied à mettre en place des filtres anti-spam, je trouve que le moteur ne nous a pas annoncé de grandes avancés technologiques et sémantiques sur son moteur, depuis des années maintenant...

12. Le 12/10/2006, par Open Keywords :: site

Peut-être un exemple correct ? mais en anglais
www.miislita.com/informat...

13. Le 12/10/2006, par cariboo

Jean Véronis ? Jean-Luc Manguin ?

Pourquoi pas évidemment. Mais pitié, ne leur demandez pas de parler de LSI, demandez leur plutôt de vous expliquer toute la richesse de ce qui existe dans le domaine. Comme les outils utilisant des méthodes probabilistes par exemple.

Se focaliser sur LSI, c'est vraiment passer à côté de l'essentiel.

En plus, avant de parler de LSI, il faudrait déjà avoir exposé tf*idf.

Mais cela peut se faire, si cela vous intéresse.

14. Le 12/10/2006, par jov :: site

>Comme les outils utilisant des méthodes probabilistes par exemple.

Par exemple ça ? :
dico.isc.cnrs.fr/dico_htm...
Atlas sémantique dév. par le cnrs.

15. Le 12/10/2006, par cariboo

Euh... non, cela n'a rien à voir avec les modèles probabilistes ce truc (il me semble).

Par contre pour cet outil on utilise des méthodes proches de LSI pour déterminer la "proximité" des synonymes dans un espace multidimensionnel dans lequel on repère par leurs coordonnées des "concepts".

Je déconseille fortement d'utiliser ce genre d'outil dans un contexte d'optimisation pour un moteur de recherche.

Le thésaurus de départ est trop éloigné de la langue réellement utilisée dans les pages webs... Donc un mot jugé proche déplacera trop souvent l'axe d'un document dans le modèle utilisé par le moteur d'une façon qui le fera considérer comme moins "similaire" sur une requête donnée. Soit l'inverse de l'effet recherché.

16. Le 12/10/2006, par SeTyR

Salut,

article trés interressant;

maintenant je me rend compte de ce peut apporter les matrices (j'ai laissé tombé dès ma première année de fac) , et comprend que finalement il s'agit de mimétiser ce que l'homme fait de manière innée .. comprendre le sens d'un texte en le "lisant en diagonale"

Aussi, ne pensez-vous pas que échelon ou autres grandes oreilles utilisent, eux, la méthode lsi sur des données particulières ? :)

17. Le 12/10/2006, par DavidD [1ère Position]

Cariboo : Tout à fait il faut élargir le débat et avoir commencé par le LSI est une bonne piste car ce que je trouve le plus interessant dans ces discussions et débats c'est la prospective et les pistes de réfléxion qu'on peut en tirer pour les moteurs et la recherche de demain car les moteurs en général sont loin d'avoir explorés toutes les pites en matière d'innovation dans la recherche d'information. Merci pour ton article au passage et a Sébastien car de vous à moi c'était la première fois que j'entendais parlé de LSI, comme quoi, on pouvait effectivement vivre sans ;-)

18. Le 17/10/2006, par cain :: site

Pénible !

Cet article est franchement mal écrit.

Ecrire c'est communiquer, ce qui influe que l'on parle à l'autre, on établit un dialogue avec une tierce personne ou des tierces personnes.

Dans le cas présent, nous ne sommes pas dans l'échange, dans le relation, nous sommes dans un soliloque, ce monsieur se parle à lui-même.

Caïn

19. Le 17/10/2006, par Sébastien Billard :: site

Cain : Il s'agit d'un article sur un sujet très pointu, je conçois qu'il soit difficile d'accès (certaines parties le sont pour moi). On peut cependant difficilement reprocher à Philippe de "se parler à lui-même".

20. Le 17/10/2006, par Da Code :: site

Bonjour,

Merci pour l'article que je ne trouve ni obscur ni obtus. Le fond reste le plus drôle, effectivement, puisque tout un milieu (le référencement, les référenceurs, les développeurs...) s'attache à "coller au plus près" des "attentes" des engins de recherche, là ou l'inverse devrait être la norme ! Si demain Google déclare que son Googlebot indexe en priorité les sites à langage SMS, tout le monde va foncer et réduire son vocabulaire courant à 200 mots ?

21. Le 25/10/2006, par elsha

Les recherches sur le Web Sémantique sont nombreuses, occupent largement le W3C actuellement, comme seul issue visible du WEB (dixit Tim Berners Lee himself) et commencent à être opérationnelle dans des domaines restreint (comme la GED règlementaire). LSI , je ne connaissais pas mais je comprends ce que c'est, ayant travaillé sur les ontologies. C'est une méthode intéressante, mais je pense que celles basées sur les graphes concetuels orientés sont plus développées (RDF, OWL). On peut se demander si le calcul matriciel sera plus gourmand en ressource ou au contraire , avantageux pour un passage à l'échelle du WEB. Merci à l'auteur pour cet effort de communication...quant à cain si ses ecrits arrivait à la moitié de ce résultat, l'oeil ne serait pas dans la tombe et regarderait ailleurs :-P

Ajouter un commentaire

Les commentaires pour ce billet sont fermés.

Référencement, Design et Cie