Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à Référencement Design et Cie 2.0

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

23/06/2006

Blogs et référencement sur le Journal du Net

A lire sur le Journal du Net, un article sur le référencement des blogs : "Le blog : chouchou des moteurs de recherche ?".

Pour les personnes interessées par le sujet, le support de la présentation que j'avais faite à W3 Campus sur le sujet reste disponible (fichier doc).

21/06/2006

5 astuces pour créer des liens

A lire sur le blog de Malaiac, la traduction en français d'un article de Randfish sur SEOMoz : "Cinq tactiques originales de création de liens". Si le contenu de l'article n'est pas révolutionnaire, celui-ci a le mérite de rappeler des méthodes de création de liens éventuellement sous-exploitées.

14/06/2006

Interview avec Danica Brinton (Ask.com)

Contacté par l'équipe française du moteur de recherche Ask pour tester son moteur de recherche de blogs, j'ai pu m'entretenir par email avec l'équipe US, représentée par Danica Brinton. Voici donc une petite interview (Note for international readers : the interview is available in english as a Pdf file) :

SB : Bonjour, tout d'abord merci d'avoir accepté de répondre à ces quelques questions, pourriez vous vous présenter aux lecteurs ?

DB : De rien, c'est un plaisir Sébastien. Je m'appelle Danica Brinton, et je suis en charge du product management et de la localisation chez Ask.com.

SB : Qu'est-ce qui distingue votre moteur de recherche de blogs de ceux des concurrents ?

DB : Nous avons construit un système qui fournit de meilleurs résultats, donne accès à des contenus de qualité en maintenant un bas niveau de spam, le tout avec un fonctionnement très intuitif.

Nous pensons que les robots d'indexation utilisés par les moteurs de recherche classiques ne sont pas adaptés quand il s'agit d'explorer l'intégralité de la blogosphère. Les contenus syndiqués (NdT : les flux XML) sont un vrai défi pour les moteurs, qui doivent à la fois rendre compte de la diversité et de l'actualisation permanente de la blogosphère, tout en s'assurant de délivrer des résultats pertinents.

Les moteurs qui se contentent d'étendre les technologies de recherche web à la recherche de contenus syndiqués ne peuvent qu'échouer. A la différence du web statique, la blogosphère évolue trop rapidement pour que les réseaux de liens soient exploitables pour l'indexation des nouveaux contenus. Les moteurs de recherche se basant sur ces réseaux passent donc à coté d'informations importantes, ou alors doivent avoir recours à d'autres techniques (comme le ping), qui sont souvent sujettes au spam.

Ainsi, au lieu de crawler, Ask Blog & Feed Search utilise la base de flux que constituent les abonnements des centaines de milliers d'utilisateurs Bloglines, premier agrégateur mondial, pour alimenter son index. En l'absence de réseaux de liens fiable, ce sont encore les utilisateurs qui permettent le mieux de découvrir des flux à la fois d'actualité et de qualité. Cette "intelligence collective" protège également naturellement du spam, puisque les gens ne s'abonnent pas en général à des contenus de mauvaise qualité.

Bloglines étant l'agrégateur en ligne le plus utilisé et le plus ancien, Ask Blog & Feed Search bénéficie de l'index le plus robuste du web, comprenant des articles publiés de 2001 à il y a 5 minutes (ou moins), soit environ 1.5 millards de billets. De nouveaux articles sont indexés quotidiennement, au rythme de 4 à 6 millions par jour. Cet index est ensuite exploité via nos algorithmes de recherche maison, enrichis des données Bloglines, pour vous fournir des résultats d'une qualité sans précédent.

Nous croyons que notre solution propose les fonctionnalités les plus utiles et les plus intuitives. Ask Blog & Feed Search vous permet de chercher et de naviguer à travers trois types de résultats :

  • Les billets, c'est à dire les articles les plus pertinents par rapport à vos mots-clés. Environ 1.5 milliard sont indexés.
  • Les flux, c'est à dire les fils XML correspondant à vos mots-clés (signalés par leur favicon quand cela est possible). Environ 2.5 millions de flux uniques sont ainsi indexés, via Bloglines.
  • Les actualités, constituées en fait d'un sous-index comprenant 7000 sources environ.

Le tri des résultats peut se faire par pertinence, fraîcheur ou popularité. Le tri par pertinence mixe fraîcheur et popularité, c'est l'option par défaut. La tri par popularité se base lui une combinaison de plusieurs facteurs : nombre d'abonnés, citations et liens, et ExpertRank.

Vous pouvez voir un aperçu des flux simplement en passant votre souris sur les jumelles dans les pages de résultats. Cette technlogie brevetée vous permet ainsi de juger un flux rapidement avant de cliquer dessus.

Après avoir identifié des ressources pertinentes, il est également très simple de les gérer directement depuis les pages de résultats : utilisez simplement le menu déroulant "s'abonner" pour souscrire aux flux, pas seulement dans Bloglines, mais aussi dans d'autres services comme Google Reader, Newsgator, ou Netvibes. Utilisez le menu "Publier" pour soumettre la ressource à Bloglines, Blogmarks, Linkedfeed ou Mesfavs. Vous pouvez également mettre en place une recherche permanente, et être prévenu instantanément dès que de nouveaux contenus apparaissent dans la blogosphère pour vos mots-clés. Là encore, il vous est possible de vous abonner à cette recherche directement depuis l'interface, en utilisant le service de votre choix.

Notre moteur vous propose également des flux liés à votre recherche. Il s'agit des "Meilleurs flux" apparaissant à droite de l'écran.

Enfin, la recherche avancée vous permet d'affiner très précisement vos recherches, en permettant notamment de spécifier la langue des billets. Sur Ask, la recherche avancée est accessible très facilement, puisque un clic fait apparaître les options, sans rechargement de la page.

J'espère que vous me pardonnerez ma réponse un peu verbeuse ;)

SB : Pouvez-vous nous expliquer l'algorithme ExperRank, et comment celui-ci est utilisé dans la recherche de flux ?

DB : ExpertRank est un algorithme unique, qui se base sur les communautés et sur les thèmes (clusters). Les réseaux de liens ne sont pas des indices suffisants de la pertinence d'une ressource. Les réseaux de liens peuvent être crées de manière artificielle. Nous préférons nous fier à l'autorité qu'ont ces liens.

SB : Comment fonctionne l'indexation de votre moteur de recherche de blogs ? Comment les blogueurs peuvent-ils s'assurer l'indexation de leur flux ?

DB : Il suffit que les blogueurs s'abonnent à Bloglines pour que leur contenu soit indexé. C'est plutôt simple :)

SB : Comment votre moteur détermine-t-il les meilleurs flux affichés à droite des résultats ? Vous basez-vous sur ne nombre d'abonnés Bloglines ?

DB : Nous prenons effectivement en compte le nombre d'abonnements, mais nous examinons surtout les liens et les citations, et la valeur de ceux-ci. Et nous mettons en oeuvre nos recettes maison :)

SB : Votre moteur ne retourne pas les mêmes résultats pour les versions accentuées et non-accentuées d'un mot. Est-ce voulu ? Ne pensez-vous pas qu'il devrait afficher les mêmes résultats, l'omission des accents étant dûe la plupart du temps à la paresse ou à une mauvaise orthographe ?

DB : Merci pour ce retour. Je vais regarder ça. En général, nous prenons beaucoup de précautions en matière de normalisation. Nous avons observé que l'intention des utilisateurs pouvait être différente selon qu'ils cherchaient avec ou sans accents. Mais vous avez raison : très souvent, l'omission des accents trouve son origine dans l'utilisation d'un clavier anglais ou dans la volonté de taper plus vite. Si vous avez d'autres commentaires sur notre produit, n'hésitez pas à nous les faire parvenir. Notre site français est encore une version beta, et les retours d'utilisateurs avancés comme vous n'ont pas de prix.

SB : J'ai remarqué plusieurs Digg-likes indexés dans vos pages de résultats, comme Tapemoi ou Fuzz. Ce type de service liste seulement des liens vers des ressources, mais ne sont pas des ressources eux-mêmes. Fréquement, ces services reprennent le titre des ressources qu'ils référencent, laissant penser à l'utilisateur que la ressource est à un clic de vos pages de résultats, alors que l'utilisateur tombera en fait sur la page du Digg-like où il devra encore cliquer... Considérez vous que cela affecte votre pertinence, et si c'est le cas, travaillez vous à des solutions ?

DB : Je suis là encore d'accord avec vous. Nous sommes en train d'examiner avec attention ces sites. Il y a là un défi à relever.

SB : Utilisez vous des algorithmes ou une intervention humaine pour éviter l'indexation de flux qui ne sont que des outils et non de l'information ? Je pense par exemple aux flux de Wikipedia permettant de suivre les modifications des pages.

DB : Nous procédons de façon algorithmique. Vous ne m'en voudrez pas si le reste reste un secret :)

SB : J'ai remarqué dans vos pages de résultats que certains liens utilisaient des URLs de redirection, commençant par wzeu.ask.com. Un des paramètres de ces URLs est nommé "ip". S'agit-il d'évaluer la qualité de vos résultats ? De personnaliser les résultats ?

DB : Bien vu ! Mais cela reste confidentiel, j'espère que vous ne m'en voudrez pas là encore :)

SB : Une dernière question, concernant la recherche web : Quand la fonction Zoom sera-t-elle disponible pour le public français ?

DB : Nous ajoutons constamment des fonctionnalités à nos sites. Zoom est une fonctionnalité que nous lancerons sur nos sites à l'international une fois la phase beta terminée.

12/06/2006

Google blues

Décidément, Google semble bien avoir perdu son mojo, et le changement d'ère que j'avais évoqué fin 2005 se poursuit : après avoir perdu des partenaires importants en mai, Google fait face à une vague croissante de scepticisme de la part des observateurs du monde du Search :

Om Malik se demande ainsi si Google "gâche son temps cerveau", Seth Jayson explique comment Google est en train selon lui de "tuer l'internet", Olivier Andrieu examine les raisons éventuelles du déclin du moteur, Emmanuel Parody exprime sa lassitude vis-à-vis du buzz-marketing, et TechCrunch enfonce le clou en dénonçant l'enthousiasme aveugle qui suit chaque lancement Google, en se demandant "à quand remonte la dernière fois où Google a lancé un produit qui a changé nos vies ?"...

PS : Pour une traduction de l'article de Seth Jayson "How Google Is Killing the Internet", voir le blog de Jean-Marie Le Ray.

8/06/2006

Des outils pour le Search Marketing avec Adcenter Labs

Le Adcenter Labs de Microsoft, en version beta, présente un certain nombre d'outils à destination des annonceurs et des consultants en Search Marketing.

Attention : ces applications ne sont pour l'instant que des démonstration technologiques, et la taille des échantillons n'est pas précisée. Il serait donc hasardeux de baser une décision sur les seules données fournies. Il n'empêche que Microsoft a à mon avis fait fort, en proposant des fonctionnalités d'analyse poussée du comportement des utilisateurs, et on ne peut qu'esperer que ces services soient rapidement opérationnels.

Un petit aperçu des deux outils les plus intéressants à mon sens :

Le Search Funnel permet de determiner les mots-clés tapés avant ou après une requête. On peut par exemple voir que parmi les gens ayant tapé "cholesterol", 5.09% ont ensuite fait une recherche sur "triglyceride", 3.56% ont fait une recherche sur "cholesterol level", etc. A l'inverse, on peut aussi voir que parmi les gens ayant tapé "cholesterol", 8.45% avaient auparavant cherché "cholesteral", 2.18% "triglyceride", 2.1% "cholestorol" etc.

Les Demographics Predictions permettent quand à elles d'obtenir des données démographiques sur les visiteurs ayant cherché un mot-clé ou visité un site donné. On y apprend que l'audience de Slashdot est à 71% masculine, et d'un âge plutôt compris entre 18 et 50 ans, et que 63% des gens ayant cherché "Billy Crawford" sont de sexe féminin, et d'un âge en général inférieur à 35 ans.