Contacté par l'équipe française du moteur de recherche Ask pour tester son moteur de recherche de blogs, j'ai pu m'entretenir par email avec l'équipe US, représentée par Danica Brinton. Voici donc une petite interview (Note for international readers : the interview is available in english as a Pdf file) :

SB : Bonjour, tout d'abord merci d'avoir accepté de répondre à ces quelques questions, pourriez vous vous présenter aux lecteurs ?

DB : De rien, c'est un plaisir Sébastien. Je m'appelle Danica Brinton, et je suis en charge du product management et de la localisation chez Ask.com.

SB : Qu'est-ce qui distingue votre moteur de recherche de blogs de ceux des concurrents ?

DB : Nous avons construit un système qui fournit de meilleurs résultats, donne accès à des contenus de qualité en maintenant un bas niveau de spam, le tout avec un fonctionnement très intuitif.

Nous pensons que les robots d'indexation utilisés par les moteurs de recherche classiques ne sont pas adaptés quand il s'agit d'explorer l'intégralité de la blogosphère. Les contenus syndiqués (NdT : les flux XML) sont un vrai défi pour les moteurs, qui doivent à la fois rendre compte de la diversité et de l'actualisation permanente de la blogosphère, tout en s'assurant de délivrer des résultats pertinents.

Les moteurs qui se contentent d'étendre les technologies de recherche web à la recherche de contenus syndiqués ne peuvent qu'échouer. A la différence du web statique, la blogosphère évolue trop rapidement pour que les réseaux de liens soient exploitables pour l'indexation des nouveaux contenus. Les moteurs de recherche se basant sur ces réseaux passent donc à coté d'informations importantes, ou alors doivent avoir recours à d'autres techniques (comme le ping), qui sont souvent sujettes au spam.

Ainsi, au lieu de crawler, Ask Blog & Feed Search utilise la base de flux que constituent les abonnements des centaines de milliers d'utilisateurs Bloglines, premier agrégateur mondial, pour alimenter son index. En l'absence de réseaux de liens fiable, ce sont encore les utilisateurs qui permettent le mieux de découvrir des flux à la fois d'actualité et de qualité. Cette "intelligence collective" protège également naturellement du spam, puisque les gens ne s'abonnent pas en général à des contenus de mauvaise qualité.

Bloglines étant l'agrégateur en ligne le plus utilisé et le plus ancien, Ask Blog & Feed Search bénéficie de l'index le plus robuste du web, comprenant des articles publiés de 2001 à il y a 5 minutes (ou moins), soit environ 1.5 millards de billets. De nouveaux articles sont indexés quotidiennement, au rythme de 4 à 6 millions par jour. Cet index est ensuite exploité via nos algorithmes de recherche maison, enrichis des données Bloglines, pour vous fournir des résultats d'une qualité sans précédent.

Nous croyons que notre solution propose les fonctionnalités les plus utiles et les plus intuitives. Ask Blog & Feed Search vous permet de chercher et de naviguer à travers trois types de résultats :

  • Les billets, c'est à dire les articles les plus pertinents par rapport à vos mots-clés. Environ 1.5 milliard sont indexés.
  • Les flux, c'est à dire les fils XML correspondant à vos mots-clés (signalés par leur favicon quand cela est possible). Environ 2.5 millions de flux uniques sont ainsi indexés, via Bloglines.
  • Les actualités, constituées en fait d'un sous-index comprenant 7000 sources environ.

Le tri des résultats peut se faire par pertinence, fraîcheur ou popularité. Le tri par pertinence mixe fraîcheur et popularité, c'est l'option par défaut. La tri par popularité se base lui une combinaison de plusieurs facteurs : nombre d'abonnés, citations et liens, et ExpertRank.

Vous pouvez voir un aperçu des flux simplement en passant votre souris sur les jumelles dans les pages de résultats. Cette technlogie brevetée vous permet ainsi de juger un flux rapidement avant de cliquer dessus.

Après avoir identifié des ressources pertinentes, il est également très simple de les gérer directement depuis les pages de résultats : utilisez simplement le menu déroulant "s'abonner" pour souscrire aux flux, pas seulement dans Bloglines, mais aussi dans d'autres services comme Google Reader, Newsgator, ou Netvibes. Utilisez le menu "Publier" pour soumettre la ressource à Bloglines, Blogmarks, Linkedfeed ou Mesfavs. Vous pouvez également mettre en place une recherche permanente, et être prévenu instantanément dès que de nouveaux contenus apparaissent dans la blogosphère pour vos mots-clés. Là encore, il vous est possible de vous abonner à cette recherche directement depuis l'interface, en utilisant le service de votre choix.

Notre moteur vous propose également des flux liés à votre recherche. Il s'agit des "Meilleurs flux" apparaissant à droite de l'écran.

Enfin, la recherche avancée vous permet d'affiner très précisement vos recherches, en permettant notamment de spécifier la langue des billets. Sur Ask, la recherche avancée est accessible très facilement, puisque un clic fait apparaître les options, sans rechargement de la page.

J'espère que vous me pardonnerez ma réponse un peu verbeuse ;)

SB : Pouvez-vous nous expliquer l'algorithme ExperRank, et comment celui-ci est utilisé dans la recherche de flux ?

DB : ExpertRank est un algorithme unique, qui se base sur les communautés et sur les thèmes (clusters). Les réseaux de liens ne sont pas des indices suffisants de la pertinence d'une ressource. Les réseaux de liens peuvent être crées de manière artificielle. Nous préférons nous fier à l'autorité qu'ont ces liens.

SB : Comment fonctionne l'indexation de votre moteur de recherche de blogs ? Comment les blogueurs peuvent-ils s'assurer l'indexation de leur flux ?

DB : Il suffit que les blogueurs s'abonnent à Bloglines pour que leur contenu soit indexé. C'est plutôt simple :)

SB : Comment votre moteur détermine-t-il les meilleurs flux affichés à droite des résultats ? Vous basez-vous sur ne nombre d'abonnés Bloglines ?

DB : Nous prenons effectivement en compte le nombre d'abonnements, mais nous examinons surtout les liens et les citations, et la valeur de ceux-ci. Et nous mettons en oeuvre nos recettes maison :)

SB : Votre moteur ne retourne pas les mêmes résultats pour les versions accentuées et non-accentuées d'un mot. Est-ce voulu ? Ne pensez-vous pas qu'il devrait afficher les mêmes résultats, l'omission des accents étant dûe la plupart du temps à la paresse ou à une mauvaise orthographe ?

DB : Merci pour ce retour. Je vais regarder ça. En général, nous prenons beaucoup de précautions en matière de normalisation. Nous avons observé que l'intention des utilisateurs pouvait être différente selon qu'ils cherchaient avec ou sans accents. Mais vous avez raison : très souvent, l'omission des accents trouve son origine dans l'utilisation d'un clavier anglais ou dans la volonté de taper plus vite. Si vous avez d'autres commentaires sur notre produit, n'hésitez pas à nous les faire parvenir. Notre site français est encore une version beta, et les retours d'utilisateurs avancés comme vous n'ont pas de prix.

SB : J'ai remarqué plusieurs Digg-likes indexés dans vos pages de résultats, comme Tapemoi ou Fuzz. Ce type de service liste seulement des liens vers des ressources, mais ne sont pas des ressources eux-mêmes. Fréquement, ces services reprennent le titre des ressources qu'ils référencent, laissant penser à l'utilisateur que la ressource est à un clic de vos pages de résultats, alors que l'utilisateur tombera en fait sur la page du Digg-like où il devra encore cliquer... Considérez vous que cela affecte votre pertinence, et si c'est le cas, travaillez vous à des solutions ?

DB : Je suis là encore d'accord avec vous. Nous sommes en train d'examiner avec attention ces sites. Il y a là un défi à relever.

SB : Utilisez vous des algorithmes ou une intervention humaine pour éviter l'indexation de flux qui ne sont que des outils et non de l'information ? Je pense par exemple aux flux de Wikipedia permettant de suivre les modifications des pages.

DB : Nous procédons de façon algorithmique. Vous ne m'en voudrez pas si le reste reste un secret :)

SB : J'ai remarqué dans vos pages de résultats que certains liens utilisaient des URLs de redirection, commençant par wzeu.ask.com. Un des paramètres de ces URLs est nommé "ip". S'agit-il d'évaluer la qualité de vos résultats ? De personnaliser les résultats ?

DB : Bien vu ! Mais cela reste confidentiel, j'espère que vous ne m'en voudrez pas là encore :)

SB : Une dernière question, concernant la recherche web : Quand la fonction Zoom sera-t-elle disponible pour le public français ?

DB : Nous ajoutons constamment des fonctionnalités à nos sites. Zoom est une fonctionnalité que nous lancerons sur nos sites à l'international une fois la phase beta terminée.