Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à Référencement Design et Cie 2.0

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

27/02/2008

Apero référencement à Lille le 28 février

Demain soir aura lieu le premier apéro référencement de l'année 2008, au Café citoyen de Lille, à partir de 19h. L'entrée est gratuite, mais vous pouvez annoncer votre venue sur Bistoule. Au plaisir de vous y croiser :)

C'est assez inquiétant

Sergey Brin à propos de la fusion avortée Microsoft - Yahoo :

"Si l'internet a pu se développer, c'est sur la base de standards ouverts, et d'une grande diversité de sociétés (...) et quand vous commencez à voir des sociétés controlant à la fois le système d'exploitation et les navigateurs (NdT : voir ici aussi), ce à quoi l'on assiste est véritablement une prise de pouvoir de ces sociétés sur les sites web, et ouvre la voie à divers types de manipulation. Je crois que c'est inquiétant".

En effet.

19/02/2008

Quelques conseils d'Adam Lasnik, search evangelist chez Google

Eric Enge de StoneTemple Consulting a mené une longue interview d'Adam Lasnik, "Search Evangelist" chez Google. Si l'ensemble de l'article est des plus intéressant, plusieurs points ont plus particulièrement retenu mon attention :

  • Si Google recommande toujours de ne pas utiliser plus de 100 liens par page, ce n'est plus parce que cela correspond à une limitation technique du moteur, mais uniquement parce qu'un trop grand nombre de liens est souvent révélateur de liens de mauvaise qualité.
  • Les fichiers sitemap peuvent être utilisés pour résoudre certains problèmes de duplicate content et de canonicalisation. En cas de duplication de contenu, Google tendra à favoriser l'URL spécifiée dans le fichier sitemap.xml.
  • Lorsque Google "canonicalise" une URL, les informations relatives au PageRank sont également fusionnées (je recommande cependant de prendre les devants et de rediriger vers l'URL principale via une redirection 301).
  • Il est correct aux yeux de Google de fournir un contenu alternatif aux fichiers Flash, tant que le texte alternatif reste identique au contenu du clip Flash. Peu importe la technique employée.

15/02/2008

Détecter le spam par l'analyse du contenu

Dans une étude intitulée "Detecting Spam Web Pages through Content Analysis", Alexandros Toulas,chercheur au département de génie informatique de l'université de Los Angeles, Marc Najork, Mark Manasse et Dennis fetterly, chercheurs au sein du laboratoire de recherche Microsoft, proposent plusieurs indicateurs qui, combinés, permettent de détecter les pages constitutives de spam avec une efficacité de plus de 86%.

Parmi les indicateurs pouvant laisser penser qu'une page est du spam :

  • L'usage d'extensions plus susceptibles de contenir du spam que d'autres (.biz et .us).
  • L'utilisation de langues plus spammées que d'autres (le français, dans une moindre mesure l'anglais).
  • Une longueur anormale de la balise <title> (plus d'une quinzaine de mots).
  • Une longueur moyenne des mots anormale (plus de 6 caractères).
  • Un ratio ancres de liens / texte trop important.
  • Une compressibilité de la page plus élevée que la moyenne (via l'algorithme Gzip).
  • Un ratio balisage / contenu anormalement faible.
  • Une fréquence anormalement faible des mots les plus fréquents du corpus.
  • Une fraction anormalement élevée des mots les plus fréquents du corpus (plus de 65%).
  • Une présence anormale élevée de n-grammes soit trop fréquents, soit improbables.

Il est important de noter que quasiment aucun de ces indicateurs ne peut servir isolément à caractériser le spam. C'est uniquement en cumulant les indicateurs et en mettant au point une heuristique qu'une détection fiable du spam devient possible.

1/02/2008

Microsoft sur le point de racheter Yahoo ?

Microsoft vient de lancer une offre public d'achat à l'intention de Yahoo, pour un montant de 44.6 milliards de dollars au prix de 31$ l'action, soit une prime de 62% par rapport à son cours actuel. Les marchés ont vite réagit, avec une action Yahoo en hausse et un Google à la baisse. La transaction est-elle envisageable ? Pourquoi pas : la situation n'est pas au beau fixe pour le portail.

Au delà de l'aspect financier de l'affaire, que va devenir la technologie Yahoo si le rachat se concrétise ? Yahoo en rachetant Overture en 2003 avait aussi racheté indirectement Altavista et Fast, et l'on sait ce que sont devenues ces technologies... Si le moteur Yahoo devait disparaître, ce serait encore un moteur de moins dans le paysage des outils de recherche, où l'on ne trouverait plus que Google, Microsoft, et dans une (très) moindre mesure Ask...