Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à Référencement Design et Cie 2.0

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

15/02/2008

Détecter le spam par l'analyse du contenu

Dans une étude intitulée "Detecting Spam Web Pages through Content Analysis", Alexandros Toulas,chercheur au département de génie informatique de l'université de Los Angeles, Marc Najork, Mark Manasse et Dennis fetterly, chercheurs au sein du laboratoire de recherche Microsoft, proposent plusieurs indicateurs qui, combinés, permettent de détecter les pages constitutives de spam avec une efficacité de plus de 86%.

Parmi les indicateurs pouvant laisser penser qu'une page est du spam :

  • L'usage d'extensions plus susceptibles de contenir du spam que d'autres (.biz et .us).
  • L'utilisation de langues plus spammées que d'autres (le français, dans une moindre mesure l'anglais).
  • Une longueur anormale de la balise <title> (plus d'une quinzaine de mots).
  • Une longueur moyenne des mots anormale (plus de 6 caractères).
  • Un ratio ancres de liens / texte trop important.
  • Une compressibilité de la page plus élevée que la moyenne (via l'algorithme Gzip).
  • Un ratio balisage / contenu anormalement faible.
  • Une fréquence anormalement faible des mots les plus fréquents du corpus.
  • Une fraction anormalement élevée des mots les plus fréquents du corpus (plus de 65%).
  • Une présence anormale élevée de n-grammes soit trop fréquents, soit improbables.

Il est important de noter que quasiment aucun de ces indicateurs ne peut servir isolément à caractériser le spam. C'est uniquement en cumulant les indicateurs et en mettant au point une heuristique qu'une détection fiable du spam devient possible.

8/02/2008

Une interview où l'on parle de liens sponsorisés

Les articles réellement intéressants sur les liens sponsorisés ne sont pas légion, aussi je me devais de vous signaler celui-ci ;)

Webmaster-Hub propose donc ce mois-ci une interview de Jean-Baptiste Garnier, directeur de l'équipe Account Managers chez Relevant Traffic. Jean-Baptiste y parle de son métier, du marché du lien sponsorisé et fournit un certain nombre de conseils pertinents pour améliorer les performances de vos campagnes.

6/02/2008

Sortie du petit livre rouge du marketing interactif

Edité par l'EBG, le petit livre rouge du marketing interactif se veut être "un panorama de toutes les opérations de marketing interactif innovantes sur Internet et sur mobile". En tant que "petit livre rouge" l'ouvrage ne tient doublement pas sa promesse : déjà parce que sa couverture est bleue, et surtout parce qu'il n'a rien de petit. Avec ses 632 pages et un poids qui doit avoisiner le kilo et demi, le brandir à bout de bras en scandant "ROI" tient plus du masochisme que du maoisme. Calembours mis à part, j'ai trouvé ce guide globalement intéressant, non seulement en tant que source d'inspiration grâce aux nombreuses études de cas présentées, mais aussi pour les données statistiques qu'il contient.

Le prix de 45 euros pourra rebuter certains. Je n'aurais moi-même probablement jamais envisagé l'achat de ce type d'ouvrage à titre personnel. Mais pour une entreprise, l'acquisition de ce guide m'apparaît être un investissement pertinent, ne serait-ce que pour maintenir une veille sectorielle et avoir quelques données rapidement accessibles sous la main pour étayer son discours commercial.

Et pour les plus radins, un concours devrait être très prochainement organisé, avec 100 guides mis en jeu ;)

1/02/2008

Microsoft sur le point de racheter Yahoo ?

Microsoft vient de lancer une offre public d'achat à l'intention de Yahoo, pour un montant de 44.6 milliards de dollars au prix de 31$ l'action, soit une prime de 62% par rapport à son cours actuel. Les marchés ont vite réagit, avec une action Yahoo en hausse et un Google à la baisse. La transaction est-elle envisageable ? Pourquoi pas : la situation n'est pas au beau fixe pour le portail.

Au delà de l'aspect financier de l'affaire, que va devenir la technologie Yahoo si le rachat se concrétise ? Yahoo en rachetant Overture en 2003 avait aussi racheté indirectement Altavista et Fast, et l'on sait ce que sont devenues ces technologies... Si le moteur Yahoo devait disparaître, ce serait encore un moteur de moins dans le paysage des outils de recherche, où l'on ne trouverait plus que Google, Microsoft, et dans une (très) moindre mesure Ask...

22/01/2008

Le Bad Usability Calendar 2008 est arrivé !

L'édition 2008 du désormais traditionnel calendrier consacré à l'inusabilité est disponible. Au menu : indigestion de vidéos, interfaces trop riches, abus de réseaux sociaux et web double zero :)

21/01/2008

Bilan des Search Engine Strategies 2008

Les 15 et 16 janvier dernier avait donc lieu la troisième édition des Search Engine Strategies. Que retenir de cette édition ? La nouvelle formule, mettant l'accent sur les conférence et dénuée de stands a plutôt bien fonctionné, avec un public plus nombreux, et plus d'interaction. On a également assisté à un renouvellement des intervenants, ainsi qu'à une percée remarquable de la "searchosphère" nordiste avec la présence de Yann Lemort, Aurélien Bardon, Damien Selosse et Eric Niakissa. A quand un SES à Lille ou à Bruxelles ?

Je ne commenterai pas le contenu des conférences, étant donné que j'étais souvent occupé à discuter à droite et à gauche. J'ai cependant noté que les présentations étaient dans l'ensemble plus concrêtes et moins commerciales que lors des éditions précédentes. Il faut dire que les moderateurs et intervenant avaient été briéfés dans ce sens. J'ai apprécié de pouvoir discuter en toute simplicité avec les représentants des moteurs, en particulier Irène Toporkoff-Mayer (Ask France) et deux Googlers français travaillant sur la qualité des résultats du moteur à Dublin. Même s'il ne pouvaient fournir que très peu d'information du fait de la polique de confidentialité de la société, j'ai senti une véritable volonté de dialoguer avec les webmasters et search marketers.

Certains visiteurs argueront à juste titre qu'ils n'ont pas appris grand-chose de ces conférences. C'est sûrement vrai : il ne s'y dit rien de fondamentalement différent de ce que l'ont peut lire sur le web, et le niveau de technicité y est volontairement faible, afin d'être accessible à tous. Mais l'interêt de ce type d'évènement, pour les spécialistes réside surtout dans le fait de "sentir" les évolutions du marché, de confronter sa vision avec d'autres intervenants et aussi de réseauter.

D'autres retours sur ces SES :

18/01/2008

Mort du chanteur d'Oasis : le journal Libération ferait-il dans le buzz ?

Surprenante accroche, actuellement en une de Google News : "Mort du chanteur d'Oasis". Les journalistes de Libération se mettraient-ils à faire du buzz-marketing ? :D

17/01/2008

Les méandres de la recherche universelle : compte-rendu

Je participais mercredi dernier en compagnie de Philippe Yonnet et Jean Veronis à la conférence sur "les méandres de la recherche universelle" à l'occasion des Search Engine Strategies. Pour ceux n'ayant pu y assister (ou ceux ayant déjà tout oublié), voici un transcript légèrement remanié de mon intervention, enrichi de quelques liens, ainsi que l'inévitable Powerpoint (PPT).

Le concept

En quoi consiste la recherche universelle tout d'abord ? Le concept-clé, c'est de présenter dans une page de résultats unique des ressources issues de bases de données spécialisées, au lieu de présenter uniquement des résultats web par défaut. Chez Google, cela donne une page mélangeant des résultats de natures différentes dans une même liste (exemple). Chez Ask, par contre, on a bien une page unique, mais les résultats autres que les pages web sont présentés dans une colonne à part (exemple)

La recherche universelle coté utilisateurs

La recherche universelle est souvent présentée par les moteurs comme une révolution qui permettra enfin d'accéder à toute la richesse du web. On peut comprendre que les moteurs soient enthousiastes vis-à-vis de leurs produits. Pour autant, s'agit-il d'une panacée ?

L'adjectif "universel" en lui-même est déjà trompeur : en guise d'univers, c'est surtout l'exploration de la galaxie Google qui est facilitée. De l'univers à la galaxie, ce n'est pas la même échelle. La recherche n'est pas si "universelle" que cela : la recherche universelle ne donne pas accès aux documents pourtant accessibles mais non indexés par le moteur, et encore moins au web invisible.

Une autre question qui se pose : est-ce un progrès pour l'utilisateur ? En général, les utilisateurs aiment peu le changement, et ils ne cherchent pas non plus à avoir l'interface la plus efficace possible. Ce qu'ils apprécient, c'est une interface qui fonctionne et leur permet simplement d'accomplir leurs tâches. Depuis des années, le modèle d'une page présentant uniquement des pages web s'est imposé. Les utilisateurs ne seront-ils pas désorientés si on ajoute à ces pages des images, des vidéos, des actualités, des images etc. ? Les images et les vidéos, de par leur saillance, n'affectent-elles pas la lisibilité des pages de résultats, comme semblent le suggérer quelques études d'eye-tracking ? On peut également noter que des interfaces similaires à ce que propose la recherche universelle existent depuis plusieurs années. Pourtant elles n'ont jamais vraiment décollé…

Bien sûr, Google nous dit qu'il s'agit de "briser les silos de l'information". C'est vrai que ça présente toujours mieux de dire que l'on va "libérer" quelque chose plutôt que "segmenter" : cela fait appel à la notion de liberté, avec tous les à-priori positifs qui vont avec. Pourtant, les silos sont bien pratiques : d'ailleurs ne les a-t-on pas inventés pour stocker et protéger le bon grain? Briser ces silos sans que cela soit demandé par l'utilisateur, n'est-ce pas prendre le risque d'introduire de l'ivraie, du bruit dans sa recherche ? Car les utilisateurs, même s'ils ne l'expriment pas savent en général ce qu'ils cherchent. Et ils savent d'ailleurs s'approprier les bons outils quand ils en ont besoin : Google Images est par exemple le second service de recherche le plus utilisé de Google.

Avec la recherche universelle, ce que Google propose, ce n'est pas vraiment une amélioration dans la pertinence : il ne s'agit pas de présenter de meilleurs résultats, mais juste une plus grande diversité de résultats, dans l'espoir que parmi ses résultats l'internaute trouvera son compte. Pour prendre une image guerrière, Google fait le choix de mitrailler sa cible au lieu d'affiner sa visée. C'est un choix défendable, mais ce n'est pas à mon avis une amélioration qualitative.

Enfin, dernière question : comment comparer la pertinence de ressources de natures très différentes, comme une page web et une vidéo ? Quand il s'agit de comparer deux textes, cela est déjà difficile, même si on a des éléments objectifs, comme le nombre d'occurrences, leurs places dans les documents etc. Mais dans le cas d'un texte et d'une vidéo ?

Quelques innovations bienvenues

Tout n'est pas cependant négatif. La recherche universelle propose quand même quelques innovations appréciables. Le menu de navigation contextuel est je pense une bonne innovation. Mais il ne s'agit pas quand même d'une révolution majeure : il y a plusieurs années, l'interface de Google permettait déjà d'adresser la même requête aux différents services comme Google News, Google Image, Usenet etc. Ce qui est neuf est juste la contextualisation en fonction de la requête.

Un autre mérite de la recherche universelle pourrait être d'inciter les utilisateurs à utiliser davantage les outils verticaux, une fois que ceux-ci les auront découverts via une page "universelle". Mais il y a là un paradoxe, puisque la page de résultats unique prônée par Google pourrait finalement pousser à la spécialisation des recherches.

La prise en compte de l'intention est aussi bienvenue : une recherche sur "global warming vidéos" affichera par exemple des vidéos dans les pages de résultats, ce qui n'est pas le cas d'une recherche sur "global warming" uniquement.

La recherche universelle et les référenceurs

Après avoir parlé de l'utilisateur, qu'en est-il au niveau du Search Marketing ? La recherche universelle remet-elle en cause les stratégies de référencement telles qu'on les connait actuellement ?

On peut considérer dans un sens que la recherche universelle est une menace. Pourquoi une menace ? Tout simplement parce qu'il y a plus de documents en compétition : là où l'on concourait avec 1.000.000 de pages web, on concourt désormais potentiellement avec 1.000.000 pages web + 12.000 news + 30.000 billets de blogs + 150 vidéos etc. Il peut donc potentiellement être plus difficile de se positionner.

Mais la recherche universelle peut aussi être une opportunité pour le web marketer, qui dispose de nouveaux leviers à activer : il est ainsi possible pour les marques d'acquérir une visibilité dans les pages de résultats par défaut des moteurs grâce à une vidéo, une image, une actualité.

Il faut cependant relativiser tout cela. La menace, si elle est réelle, reste encore limitée : L'implémentation de la recherche universelle est encore partielle aux Etats-Unis, et encore plus anecdotique en France. Philippe Yonnet parlait d'ailleurs de 5% de pages des résultats universelles seulement.

D'autre part, j'ai personnellement de gros doutes sur le "référencement universel" et son retour sur investissement en général, même si des cas isolés peuvent faire croire le contraire : quand on voit les efforts qu'il faut déployer pour développer un peu plus le contenu texte de nombreux sites, je ne pense pas qu'on puisse décemment demander à un client de produire de la vidéo, d'animer un blog, de référencer des images uniquement pour améliorer son référencement. L'investissement serait disproportionné. Par contre, dans le cas où le client décide effectivement de communiquer via la vidéo, ou via le blog il faut absolument prendre en compte le référencement de ces contenus dès le départ, pour profiter éventuellement de la recherche universelle.

4/01/2008

Présent aux Search Engine Strategies Paris 2008

Les Search Engine Strategies reviennent à Paris les 15 et 16 janvier pour la 3ème année consécutive, avec une formule légèrement remaniée (moins chère, sans stands et plus proche du centre de Paris).

J'aurais le plaisir d'intervenir à l'occasion de deux conférences : la première, en compagnie de Philippe Yonnet et de Jean Veronis, s'intéressera aux "méandres de la recherche universelle". La seconde conférence sera consacrée aux outils qu'utilisent les professionnels du Search Marketing. J'y serai accompagné par David Degrelle et Romain Bellet.

N'hésitez pas à signaler en commentaire les éventuels points que vous souhaiteriez voir abordés lors de ces conférences. Les supports seront mis en ligne sur le blog.

PS : je profite de ce billet pour souhaiter à tous les lecteurs une excellente année 2008 ;)

20/12/2007

Photos de Laure Manaudou nue montrant à Nicolas Sarkozy et Carla Bruni comment installer Firefox 3 beta 2 sur leur Iphone

Quitte à chercher l'audience à tout prix autant le faire bien ;) A part ça, Jakob Nielsen a bien raison : "on the Web, most people are bozos and not worth listening to" ("sur le web, la plupart des gens sont des crétins, indignes du moindre interêt").

PS : à en juger par les statistiques de ce blog, vous êtes nombreux à rechercher les photos des personnes citées dans billets... Aussi je vous suggère Amazon, où vous trouverez j'en suis sûr de très belles photos de Laure Manaudou et de Carla Bruni ;)

19/12/2007

Une interview de Matt Cutts avec quelques informations intéressantes

Dans une interview accordée à Stephan Spencer, Matt Cutts laisse filtrer quelques informations sur les méthode employées par Google et tord le cou à plusieurs mythes. Résumé des points les plus intéressants :

  • Le PageRank est bien l'un des indicateurs employé par Google pour determiner quelle version d'un contenu dupliqué en plusieurs endroits est la version originale.
  • Il existe encore quelques moyens non documentés d'identifier les pages en résultats complémentaires, mais la distinction entre les deux index n'a plus vraiment de sens aujourd'hui.
  • Concernant l'indexation du contenu des fichiers Flash, Google utilisait originellement un parser développé en interne, mais utiliserait désormais le SDK fourni par Adobe.
  • Les liens issus des sites sociaux de mise en favori type del.icio.us ne sont aucunement dépreciés. Un lien est un lien, sauf usage éventuel de l'attribut nofollow.
  • Les liens issus de domaines en .edu ou .gov ne se voient pas reconnaître un poids plus fort du seul fait de leur extension. Par contre Matt Cutts laisse entendre que d'autres signaux seraient transmis via les liens, qui seraient basés sur la qualité et la confiance.
  • La vision "100% algorithmique" du moteur dans le passé était justifiée par le fait que Google disposait alors de peu de moyens humains. Matt Cutts pense aujourd'hui que l'intervention humaine peut être bénéfique, à condition d'être extensible ("scalable") et fiable .
  • L'achat de lien est efficace ! Matt Cutts explique en fait que la tactique consistant à acheter des liens vers ses concurrents pour ensuite les dénoncer risque d'aider ces derniers plutôt que de les handicaper.

18/12/2007

Un rapport de Jakob Nielsen sur l'accessibilité à télécharger gratuitement

A l'occasion des fêtes de fin d'année, les experts en utilisabilité de Nielsen Norman Group viennent de mettre en libre téléchargement "Beyond ALT Text: Making the Web Easy to Use for Users with Disabilities" (PDF), un rapport de 148 pages sur l'accessibilité des sites web et intranets. Ce rapport inclut en particulier 75 recommandations pour rendre son site plus accessible.

Je n'ai pu que survoler le document, mais celui-ci semble très intéressant, avec notamment des photos des différentes technologies d'assistance, et des recommandations illustrées et argumentées.

12/12/2007

Des recherches plus discrètes avec AskEraser

La débat sur la confidentialité des données personnelles collectées par les moteurs de recherche est une question récurrente. L'Union Européenne, via le Groupe de travail Article 29 sur la protection des données avait par exemple interrogé l'été dernier les moteurs à ce sujet. La réponse de Google à l'époque avait été de rendre anonymes les données collectées au bout de 18 mois (PDF).

Aujourd'hui, Ask va plus loin en lançant AskEraser, une fonctionnalité permettant aux utilisateurs d'effacer toutes les traces de leur activités de recherche sur le moteur, à savoir les termes recherchés, les sites visités, l'adresse IP ainsi que les identifiants de session associés aux recherches.

La furtivité n'est toutefois pas totale :

  • Les données ne sont effacées qu'à partir du moment où AskEraser est activé (on ne peut effacer son activité passée).
  • L'activité de l'utilisateur est conservée quelques heures, pour des raisons techniques.
  • En cas de comportements anormaux, l'activité de l'utilisateur peut être conservée un peu plus longtemps afin de résoudre les problèmes.
  • Ask est tenu de se conformer aux legislations des états, qui peuvent exiger du moteur de conserver certaines données.

AskEraser constitue néanmoins un progrès indéniable. On peut par contre regretter que cette fonctionnalité ne soit accessible qu'aux USA et au Royaume-Uni, et non dans des pays où la question est autrement plus sensible (la Chine, par exemple).

11/12/2007

Les balises <meta> réellement utilisées par Google

Dans un récent billet sur le blog Google Webmaster Central, John Mueller revient sur l'usage fait par Google des balises <meta>. Certes, ces balises ont depuis longtemps perdu de leur importance en matière de positionnement. Cela dit, elle participent néanmoins à la qualification de l'information, et c'est à ma connaissance la première fois qu'un Googler s'exprime sur le sujet.

Qu'en est-il donc ? John Mueller confirme que la balise meta "description" est bien utilisée par Google. Questionné dans les commentaires à propos de la balise meta "keywords", John Mueller indique par contre que celle-ci n'est généralement pas utilisée, mais que l'on est libre de l'insérer si on en a l'usage.

Concernant la balise meta "language" et l'attribut "lang", John Mueller explique qu'ils ne sont pas pris en compte pour déterminer la langue d'un document.

A lire également sur le sujet : Le point sur les balises meta.

7/12/2007

Buzz de Noël

Vous prendrez bien une petite tranche de buzz ? Avec Buzz de Noël, les webmasters ont eux aussi droit à leur calendrier de l'Avent : découvrez ainsi chaque jour sur le site un nouvel article sur un aspect particulier du webmastering.

Le but de l'opération ? Rien de spécial, d'après un des initiateurs du projet, si ce n'est "se faire plaisir en rassemblant 25 bons contenus sur un même site, rédigés par quelques bonnes têtes".

Oh et tant que j'y suis, passez donc faire un tour sur la boutique Référencement Design et Cie si vous êtes en mal d'inspiration pour vos cadeaux ;)

< 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 >