Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à mon nouveau blog SEO

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

28/06/2006

Congés d'été

Congés obligent, ce blog sera inactif jusqu'aux alentours du 22 juillet. A bientôt donc :)

(Les commentaires sont également fermés pendant cette période).

Edit du 24/07 : les commentaires sont à nouveau ouverts

27/06/2006

Huckabuck, un meta-moteur innovant

Huckabuck est un meta-moteur de recherche plutôt novateur. L'outil propose très classiquement d'agréger les résultats des grands moteurs, Google, Yahoo, et MSN. Là où l'outil se démarque, c'est qu'il intègre également les moteurs "2.0" que sont Technorati, Digg et Del.icio.us, en permettant de doser l'importance de chacun de ses outils via un système de curseurs (un peu à la manière du Search Builder de MSN Search).

Il devient alors possible de régler très finement la prise en compte des différents sources, selon les objectifs de sa recherche. Un poids fort donné à Del.icio.us et à Google permettra par exemple d'identifier des sites populaires et de qualité, grâce au PageRank de Google et à la sélection des utilisateurs Del.icio.us. A l'inverse, un poids fort donné à MSN et Technorati permettra d'obtenir les résultats les plus frais, MSN étant très rapide à indexer et Technorati se spécialisant dans l'indexation en quasi temps-réel des flux RSS. Les possibilités sont donc nombreuses. Pour les plus pressés, Huckabuck propose plusieurs préselections : "research", "social search", "shopping", "blog search", technology research", "metasearch" etc.

Bien que d'ordinaire assez sceptique en ce qui concerne les meta-moteurs de recherche, j'ai trouvé Huckabuck assez sympathique : les options proposées peuvent être utiles, et l'interface est à la fois esthétique et bien pensée.

23/06/2006

Blogs et référencement sur le Journal du Net

A lire sur le Journal du Net, un article sur le référencement des blogs : "Le blog : chouchou des moteurs de recherche ?".

Pour les personnes interessées par le sujet, le support de la présentation que j'avais faite à W3 Campus sur le sujet reste disponible (fichier doc).

21/06/2006

Les moteurs se censurent... et alors ?

Presque chaque semaine paraissent des articles sur l'auto-censure des moteurs de recherche en Chine. l'ONG Reporters sans frontières a d'ailleurs tout récemment publié une analyse sur l'étendue de la censure chez les trois grand moteurs, s'indignant particulièrement de la censure exercée par Yahoo, et appelant à "refuser de censurer certains contenus dits protégés"

J'avoue que je suis toujours perplexe face à de tels propos. Oui, les moteurs censurent leurs résultats. La Chine, bien que libéralisant son économie ne reste qu'une dictature qui muselle l'information, rien de surprenant. Les moteurs sont tenus de respecter les lois des pays dans lesquels ils proposent leurs services. Il ne viendrait pas à l'idée d'une journaliste de se promener en mini-jupe les cheveux au vent en Arabie Saoudite, ou d'un reporter d'arborer un tee-shirt "Free Tibet" lors d'un reportage à Lhassa. Pourquoi en serait-il différemment pour les moteurs ?

Les moteurs sont des entreprises commerciales, pas des ONG ni des organes de propagande.

Que les moteurs outrepassent les législations nationales serait tout aussi choquant : Imaginez qu'un moteur de recherche affiche en France dans ses pages de résultats des liens vers des sites révisionnistes, ou appelant au meurtre d'un journaliste, et refuse de censurer ses résultats au prétexte de protéger la liberté d'expression ?

Oui, cette censure doit être combattue. Mais ne mélangeons pas causes et conséquences.

5 astuces pour créer des liens

A lire sur le blog de Malaiac, la traduction en français d'un article de Randfish sur SEOMoz : "Cinq tactiques originales de création de liens". Si le contenu de l'article n'est pas révolutionnaire, celui-ci a le mérite de rappeler des méthodes de création de liens éventuellement sous-exploitées.

19/06/2006

Wikio : le meilleur moteur de recherche de News ?

Après une longue période de test, Wikio, moteur de recherche d'actualités à la sauce 2.0 est enfin lancé.

Wikio tient un peu de Google News, de Digg, et de Technorati, sans en avoir les inconvénients. Je dirais même que concernant la recherche de news, Wikio est à mon avis bien supérieur à ces trois services : Wikio indexe beaucoup plus de sources d'information que Google News, présente un rapport signal/bruit supérieur à celui de Technorati, et offre une diversité de sujets sans commune mesure avec Digg, qui se limite à l'actualité hi-tech.

Les fonctionnalités de Wikio sont très bien pensées avec un système automatisé étonnamment efficace de catégorisation et de tagging, un historique des recherches, sans oublier la possibilité désormais indispensable pour tout bon veilleur de de s'abonner à une recherche via RSS.

Un bien bel outil donc, que je vous encourage à tester.

14/06/2006

Interview avec Danica Brinton (Ask.com)

Contacté par l'équipe française du moteur de recherche Ask pour tester son moteur de recherche de blogs, j'ai pu m'entretenir par email avec l'équipe US, représentée par Danica Brinton. Voici donc une petite interview (Note for international readers : the interview is available in english as a Pdf file) :

SB : Bonjour, tout d'abord merci d'avoir accepté de répondre à ces quelques questions, pourriez vous vous présenter aux lecteurs ?

DB : De rien, c'est un plaisir Sébastien. Je m'appelle Danica Brinton, et je suis en charge du product management et de la localisation chez Ask.com.

SB : Qu'est-ce qui distingue votre moteur de recherche de blogs de ceux des concurrents ?

DB : Nous avons construit un système qui fournit de meilleurs résultats, donne accès à des contenus de qualité en maintenant un bas niveau de spam, le tout avec un fonctionnement très intuitif.

Nous pensons que les robots d'indexation utilisés par les moteurs de recherche classiques ne sont pas adaptés quand il s'agit d'explorer l'intégralité de la blogosphère. Les contenus syndiqués (NdT : les flux XML) sont un vrai défi pour les moteurs, qui doivent à la fois rendre compte de la diversité et de l'actualisation permanente de la blogosphère, tout en s'assurant de délivrer des résultats pertinents.

Les moteurs qui se contentent d'étendre les technologies de recherche web à la recherche de contenus syndiqués ne peuvent qu'échouer. A la différence du web statique, la blogosphère évolue trop rapidement pour que les réseaux de liens soient exploitables pour l'indexation des nouveaux contenus. Les moteurs de recherche se basant sur ces réseaux passent donc à coté d'informations importantes, ou alors doivent avoir recours à d'autres techniques (comme le ping), qui sont souvent sujettes au spam.

Ainsi, au lieu de crawler, Ask Blog & Feed Search utilise la base de flux que constituent les abonnements des centaines de milliers d'utilisateurs Bloglines, premier agrégateur mondial, pour alimenter son index. En l'absence de réseaux de liens fiable, ce sont encore les utilisateurs qui permettent le mieux de découvrir des flux à la fois d'actualité et de qualité. Cette "intelligence collective" protège également naturellement du spam, puisque les gens ne s'abonnent pas en général à des contenus de mauvaise qualité.

Bloglines étant l'agrégateur en ligne le plus utilisé et le plus ancien, Ask Blog & Feed Search bénéficie de l'index le plus robuste du web, comprenant des articles publiés de 2001 à il y a 5 minutes (ou moins), soit environ 1.5 millards de billets. De nouveaux articles sont indexés quotidiennement, au rythme de 4 à 6 millions par jour. Cet index est ensuite exploité via nos algorithmes de recherche maison, enrichis des données Bloglines, pour vous fournir des résultats d'une qualité sans précédent.

Nous croyons que notre solution propose les fonctionnalités les plus utiles et les plus intuitives. Ask Blog & Feed Search vous permet de chercher et de naviguer à travers trois types de résultats :

  • Les billets, c'est à dire les articles les plus pertinents par rapport à vos mots-clés. Environ 1.5 milliard sont indexés.
  • Les flux, c'est à dire les fils XML correspondant à vos mots-clés (signalés par leur favicon quand cela est possible). Environ 2.5 millions de flux uniques sont ainsi indexés, via Bloglines.
  • Les actualités, constituées en fait d'un sous-index comprenant 7000 sources environ.

Le tri des résultats peut se faire par pertinence, fraîcheur ou popularité. Le tri par pertinence mixe fraîcheur et popularité, c'est l'option par défaut. La tri par popularité se base lui une combinaison de plusieurs facteurs : nombre d'abonnés, citations et liens, et ExpertRank.

Vous pouvez voir un aperçu des flux simplement en passant votre souris sur les jumelles dans les pages de résultats. Cette technlogie brevetée vous permet ainsi de juger un flux rapidement avant de cliquer dessus.

Après avoir identifié des ressources pertinentes, il est également très simple de les gérer directement depuis les pages de résultats : utilisez simplement le menu déroulant "s'abonner" pour souscrire aux flux, pas seulement dans Bloglines, mais aussi dans d'autres services comme Google Reader, Newsgator, ou Netvibes. Utilisez le menu "Publier" pour soumettre la ressource à Bloglines, Blogmarks, Linkedfeed ou Mesfavs. Vous pouvez également mettre en place une recherche permanente, et être prévenu instantanément dès que de nouveaux contenus apparaissent dans la blogosphère pour vos mots-clés. Là encore, il vous est possible de vous abonner à cette recherche directement depuis l'interface, en utilisant le service de votre choix.

Notre moteur vous propose également des flux liés à votre recherche. Il s'agit des "Meilleurs flux" apparaissant à droite de l'écran.

Enfin, la recherche avancée vous permet d'affiner très précisement vos recherches, en permettant notamment de spécifier la langue des billets. Sur Ask, la recherche avancée est accessible très facilement, puisque un clic fait apparaître les options, sans rechargement de la page.

J'espère que vous me pardonnerez ma réponse un peu verbeuse ;)

SB : Pouvez-vous nous expliquer l'algorithme ExperRank, et comment celui-ci est utilisé dans la recherche de flux ?

DB : ExpertRank est un algorithme unique, qui se base sur les communautés et sur les thèmes (clusters). Les réseaux de liens ne sont pas des indices suffisants de la pertinence d'une ressource. Les réseaux de liens peuvent être crées de manière artificielle. Nous préférons nous fier à l'autorité qu'ont ces liens.

SB : Comment fonctionne l'indexation de votre moteur de recherche de blogs ? Comment les blogueurs peuvent-ils s'assurer l'indexation de leur flux ?

DB : Il suffit que les blogueurs s'abonnent à Bloglines pour que leur contenu soit indexé. C'est plutôt simple :)

SB : Comment votre moteur détermine-t-il les meilleurs flux affichés à droite des résultats ? Vous basez-vous sur ne nombre d'abonnés Bloglines ?

DB : Nous prenons effectivement en compte le nombre d'abonnements, mais nous examinons surtout les liens et les citations, et la valeur de ceux-ci. Et nous mettons en oeuvre nos recettes maison :)

SB : Votre moteur ne retourne pas les mêmes résultats pour les versions accentuées et non-accentuées d'un mot. Est-ce voulu ? Ne pensez-vous pas qu'il devrait afficher les mêmes résultats, l'omission des accents étant dûe la plupart du temps à la paresse ou à une mauvaise orthographe ?

DB : Merci pour ce retour. Je vais regarder ça. En général, nous prenons beaucoup de précautions en matière de normalisation. Nous avons observé que l'intention des utilisateurs pouvait être différente selon qu'ils cherchaient avec ou sans accents. Mais vous avez raison : très souvent, l'omission des accents trouve son origine dans l'utilisation d'un clavier anglais ou dans la volonté de taper plus vite. Si vous avez d'autres commentaires sur notre produit, n'hésitez pas à nous les faire parvenir. Notre site français est encore une version beta, et les retours d'utilisateurs avancés comme vous n'ont pas de prix.

SB : J'ai remarqué plusieurs Digg-likes indexés dans vos pages de résultats, comme Tapemoi ou Fuzz. Ce type de service liste seulement des liens vers des ressources, mais ne sont pas des ressources eux-mêmes. Fréquement, ces services reprennent le titre des ressources qu'ils référencent, laissant penser à l'utilisateur que la ressource est à un clic de vos pages de résultats, alors que l'utilisateur tombera en fait sur la page du Digg-like où il devra encore cliquer... Considérez vous que cela affecte votre pertinence, et si c'est le cas, travaillez vous à des solutions ?

DB : Je suis là encore d'accord avec vous. Nous sommes en train d'examiner avec attention ces sites. Il y a là un défi à relever.

SB : Utilisez vous des algorithmes ou une intervention humaine pour éviter l'indexation de flux qui ne sont que des outils et non de l'information ? Je pense par exemple aux flux de Wikipedia permettant de suivre les modifications des pages.

DB : Nous procédons de façon algorithmique. Vous ne m'en voudrez pas si le reste reste un secret :)

SB : J'ai remarqué dans vos pages de résultats que certains liens utilisaient des URLs de redirection, commençant par wzeu.ask.com. Un des paramètres de ces URLs est nommé "ip". S'agit-il d'évaluer la qualité de vos résultats ? De personnaliser les résultats ?

DB : Bien vu ! Mais cela reste confidentiel, j'espère que vous ne m'en voudrez pas là encore :)

SB : Une dernière question, concernant la recherche web : Quand la fonction Zoom sera-t-elle disponible pour le public français ?

DB : Nous ajoutons constamment des fonctionnalités à nos sites. Zoom est une fonctionnalité que nous lancerons sur nos sites à l'international une fois la phase beta terminée.

13/06/2006

Blogs et journalisme

Certains leaders d'opinion voudraient faire croire que le blog va supplanter le journalisme, tandis que certains journalistes regardent de haut les blogueurs.

Le site du magazine Stratégies quand à lui propose une approche intelligente, en intégrant un agrégateur dédié à l'univers de la communication, et en affichant une sélection de blogs favoris. Tout le monde y gagne : le magazine propose à ses lecteurs du contenu supplémentaire, tandis que les blogueurs y gagnent en visibilité.

Référencement Design et Cie en fait bien évidemment partie ;)

12/06/2006

Google blues

Décidément, Google semble bien avoir perdu son mojo, et le changement d'ère que j'avais évoqué fin 2005 se poursuit : après avoir perdu des partenaires importants en mai, Google fait face à une vague croissante de scepticisme de la part des observateurs du monde du Search :

Om Malik se demande ainsi si Google "gâche son temps cerveau", Seth Jayson explique comment Google est en train selon lui de "tuer l'internet", Olivier Andrieu examine les raisons éventuelles du déclin du moteur, Emmanuel Parody exprime sa lassitude vis-à-vis du buzz-marketing, et TechCrunch enfonce le clou en dénonçant l'enthousiasme aveugle qui suit chaque lancement Google, en se demandant "à quand remonte la dernière fois où Google a lancé un produit qui a changé nos vies ?"...

PS : Pour une traduction de l'article de Seth Jayson "How Google Is Killing the Internet", voir le blog de Jean-Marie Le Ray.

8/06/2006

Des outils pour le Search Marketing avec Adcenter Labs

Le Adcenter Labs de Microsoft, en version beta, présente un certain nombre d'outils à destination des annonceurs et des consultants en Search Marketing.

Attention : ces applications ne sont pour l'instant que des démonstration technologiques, et la taille des échantillons n'est pas précisée. Il serait donc hasardeux de baser une décision sur les seules données fournies. Il n'empêche que Microsoft a à mon avis fait fort, en proposant des fonctionnalités d'analyse poussée du comportement des utilisateurs, et on ne peut qu'esperer que ces services soient rapidement opérationnels.

Un petit aperçu des deux outils les plus intéressants à mon sens :

Le Search Funnel permet de determiner les mots-clés tapés avant ou après une requête. On peut par exemple voir que parmi les gens ayant tapé "cholesterol", 5.09% ont ensuite fait une recherche sur "triglyceride", 3.56% ont fait une recherche sur "cholesterol level", etc. A l'inverse, on peut aussi voir que parmi les gens ayant tapé "cholesterol", 8.45% avaient auparavant cherché "cholesteral", 2.18% "triglyceride", 2.1% "cholestorol" etc.

Les Demographics Predictions permettent quand à elles d'obtenir des données démographiques sur les visiteurs ayant cherché un mot-clé ou visité un site donné. On y apprend que l'audience de Slashdot est à 71% masculine, et d'un âge plutôt compris entre 18 et 50 ans, et que 63% des gens ayant cherché "Billy Crawford" sont de sexe féminin, et d'un âge en général inférieur à 35 ans.

7/06/2006

Polémique autour des WCAG 2

La proposition de nouvelle version des Web Content Accessibility Guidelines ne fait pas l'unanimité : Joe Clark défend son point de vue dans un article enflammé sur A List Apart, intitulé "To hell with WCAG 2".

Grâce aux efforts conjoints de Monique Brunel, Aurélien Levy et Jean-Pierre Villain, Une traduction de l'article a été effectuée, permettant aux francophones de contribuer au débat.

Pour ma part, je n'ai pas encore eu le temps d'examiner ces guidelines en détail. Il me semble cependant que leur formulation est très peu claire, ce qui est dommage, car risque d'aboutir soit à un rejet, soit à des conflits d'interprétation. Dommage également que cette polémique intervienne au moment où l'on observe un interêt croissant pour l'accessibilité : les concepteurs web ont suffisament de difficultés pour assimiler les WCAG dans leur première version. Cette seconde version quasi-définitive risque d'ajouter encore plus de confusion...

6/06/2006

Evaluer la popularité réelle d'un blog

Le PageRank constitue finalement un indice peu fiable pour juger de la popularité réelle d'une ressource auprès des utilisateurs, puisque il est techniquement possible d'afficher un PageRank significatif par la seule arithmétique des réseaux de liens. Cette popularité là ne correspond à rien de réel, ni en termes d'usage, ni en termes de notoriété.

A quels indices se fier alors ? Plusieurs outils permettent d'accéder à des données intéressantes, car basées sur les usages réels des utilisateurs :

En faisant une recherche sur le nom d'un site sur le service de gestion de favoris Del.icio.us, il est ainsi possible de retrouver le nombre d'utilisateurs ayant bookmarqué le site via ce service. La page d'accueil de Référencement Design et Cie a ainsi été mise en favoris par 29 utilisateurs (A titre de comparaison, Loic Le Meur, référence de la blogosphère francophone, affiche 201 mises en favoris).

Bloglines lui aussi permet de juger de la popularité d'un blog : une recherche sur le titre du blog avec l'option "rechercher des flux" affiche le nombre d'abonnés à ce flux. Les résultats ne sont pas forcément exacts, puisque que la page de résultats affiche pour ce blog 90 abonnés, contre 97 pour la page de détails (268 abonnés pour Loic), mais l'ordre de grandeur est là.

Autre outil dédié aux flux RSS, Technorati fournit aussi de précieuses informations : Une recherche sur l'URL affiche à la fois le nombre de billets et de flux pointant vers le blog, ainsi que les dernières citations. Référencement Design et Cie affiche ainsi 336 liens émanant de 199 sites (3810 liens pour Loic).

Icerocket permet lui de tracker les citations d'un blog, en faisant une recherche sur l'URL de celui-ci puis en cliquant sur "Trend this search". Icerocket permet également de comparer sur un même graphique plusieurs blogs. Il est alors possible de détecter les blogs populaires, et l'évolution de cette popularité dans le temps. Bien que l'interface ne permette une recherche que sur les trois derniers mois, il est possible en modifiant directement dans l'URL le paramètre "&days=" d'afficher l'évolution des citations sur une durée supérieure.

Blogpulse, très similaire dans son fonctionnement à Icerocket fournit également le même type de graphique, avec semble-t-il un plus grand nombre de flux référencés.

Dernier outil, Share Your OPML permet d'afficher quels utilisateurs de son service sont abonnés à un flux donné via leur fichier OPML grâce à la fonction "Who Subscribes To". En cliquant sur un utilisateur, on a alors accès à ses abonnements, avec le nombre d'abonnés affiché à droite, près de l'icône XML. Référencement Design et Cie apparaît ainsi dans une quinzaine de fichiers OPML en comptant les flux RSS et ATOM (contre 4 pour Loic). Share Your OPML est toutefois encore trop peu connu je pense pour que les résultats soient représentatifs, mais c'est un service à surveiller.

Voila pour ces quelques pistes. Mais peut-être en connaissez-vous que je n'ai pas mentionné ?

2/06/2006

Un moteur de recherche RSS pour Ask

Ask, déjà propriétaire de Bloglines, vient de sortir un moteur spécialisé dans la recherche au sein des blogs et flux RSS. En fait de moteur, c'est plutôt 3 moteurs en 1, puisque trois modes de recherche sont proposés : recherche dans les contenu des billets, recherche de flux, et recherche dans les actualités.

Parmi les point positifs, on peut saluer la qualité de l'interface : comme tous les services Ask (recherche web, cartographie...) celle-ci est très claire et fonctionnelle. Les jumelles affichent ainsi les derniers entrées du flux RSS, permettant de se faire une idée du contenu du site source, et un menu déroulant permet de restreindre la recherche dans le temps, de 1 heure à 1 mois. L'outil affiche également sur sa droite des flux populaires pertinents par rapport à la requête de l'utilisateur.

Un autre bon point de l'outil est son ouverture vers des service tiers : Il est ainsi possible de souscrire directement à un flux via Bloglines, Google Reader, Newsgator, Netvibes, ou Feedshow et de soumettre une entrée à des services de bookmarking comme Mesfavs, Linkedfeed ou Blogmarks. Le moteur permet également de s'abonner directement aux résultats de la recherche via ces services.

Tout n'est pas cependant parfait, et le service souffre parfois d'un manque de pertinence. Un des problèmes rencontré est notamment l'indexation de flux RSS qui ne devraient pas l'être (AMHA) comme ceux proposé par certains forums et Digg-likes, par Wikipedia, ou par des annuaire de fils RSS (Lamooche par exemple). Espérons qu'un effort soit fait sur ce point. Ces problèmes une fois réglés, je suis persuadé que le service a un très bon potentiel.

1/06/2006

Un chat du JDN sur la recherche d'information

A lire sur le Journal du Net, le transcript du chat avec Véronique Mesguich et Armelle Thomas, à l'occasion de la sortie du guide Net Recherche.

On y parle d'usages, d'outils, de RSS et on y trouve des conseils judicieux pour une recherche efficace...