10/03/2011
Nouvel algorithme Google : le fermier était en fait un panda
Par Sébastien Billard, 10/03/2011 :: Référencement et moteurs
Dans une interview accordée au magazine Wired, Matt Cutts et Amit Singhal donnent quelques informations supplémentaire sur la dernière mise à jour de l'algorithme. Condensé des points les plus intéressants :
Le nom de code interne de cette update est en fait "Panda", d'après le nom d'un des ingénieurs Google ayant participé au projet. Le nom de "Farmer" avait été donné par Danny Sullivan, cet algorithme étant censé viser les fermes de contenu. Amit Singhal explique que suite à l'update Caffeine, qui a permis un crawl plus efficace, , l'index de Google a augmenté rapidement. Beaucoup de nouveaux contenus ont été indexés, dont des contenus peu qualitatifs. Le problème est que ces derniers ne ressemblaient pas aux habituels contenus semi-aléatoires habituellement bien pris en charge par le moteur, mais plutôt à des contenus creux écrits à la main. Une mise à jour s'imposait donc.
Comment reconnaître ces contenus creux ? Google explique que ses équipes ont mis au point un set de questions telles que "voyez-vous ce site comme une autorité ?", "ces contenus pourraent-ils être ceux d'un magazine ?", "trouvez-vous que ce site affiche trop de publicités ?" etc. Ces questions ont été soumises à des évaluateurs. A partir de leurs réponses, une définition des contenus non qualitatifs a été forgée. Le nouvel algorithme tente de recréer la même intuition en prenant en compte divers signaux (sans détailler lesquels, helas). Selon Google, de réelles correlations mathématiques peuvent être observées.
Quid des sites estimant avoir été pénalisés injustement ? Matt Cutts explique que l'algorithme, s'il reste perfectible est plutôt fiable. Néanmoins Google est ouvert aux retour des webmasters et a d'ailleurs ouvert un fil de de discussion sur Webmaster Central. Wisz, un employé Google, y explique en particulier que la présence de contenus de mauvais qualité dans une partie d'un site peut affecter la visibilité du site dans son ensemble. Wisz y évoque aussi les contenus que Google ne souhaite pas faire remonter dans ses pages de résultats : contenus creux, mal écrits, copiés sur d'autre sites, ou sans réelle utilité.
Enfin, Matt Cutts explique que les pages de résultats de Google restent de toute façon une opinion. La seule façon pour le moteur d'être neutre serait de fournir des résultats aléatoires, ou de trier les pages par ordre alphabétique, ce qui n'est évidemment pas ce que recherche l'utilisateur.
:: 38 commentaires ::