Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à Référencement Design et Cie 2.0

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

10/05/2011

SEO : bien appréhender un site en 40 questions (environ)

Que l'on soit consultant ou que l'on travaille chez l'annonceur, l'optimisation du référencement d'un site passe toujours par une phase de découverte qui va concerner la structure du site, son contenu, sa popularité et divers aspects liés au marketing.

Par où commencer ? On peut parfois se sentir perdu...Aussi voici une quarantaine de questions à se poser pour bien appréhender un site. Ces questions constituent une grille de lecture personnelle, et ne prétendent pas être la checklist ultime. En particulier, il ne s'agit pas de faire un inventaire complet des possibilités d'optimisation. Mais répondre à ces questions devrait vous permettre de détecter la plus grosse partie des problèmes susceptibles de se poser en matière de référencement. Notez que cette checklist peut également servir en avant-vente, pour estimer la quantité de travail nécessaire à une prestation ;)

Structure

  • Quels sont les noms de domaines rattachés au site ?
  • Dans le cas d'un site multi-domaines un domaine canonique est-il défini ?
  • Le site possède-t-il bien une extension (TLD) adaptée au marché visé ?
  • Quels sont les sous-domaines du site ?
  • Les URLs sans "www" sont-elles redirigées vers leurs équivalents avec "www" ?
  • Le temps de chargement des pages est-il satisfaisant ?
  • Quel est le contenu des entêtes HTTP des pages ?
  • Le protocole HTTPS est-il utilisé sur le site ?
  • Existe-t-il des redirections multiples ?
  • Quel est le contenu des entêtes HTML (<head>) des pages ?
  • Quel est le contenu du fichier robots.txt ?
  • Pour les gros sites, un sitemap XML est-il présent ?
  • L'ensemble des pages du site sont-elles techniquement accessibles ?
  • Combien de clics faut-il pour accéder aux pages les plus profondes ?
  • La sémantique du balisage HTML est-elle respectée ?
  • Des pages du sites sont-elles accessibles via plusieurs URLs (duplicate content) ?
  • Si des pages sont accessibles via plusieurs URLs, des URLs canoniques sont-elles définies ?
  • Les contenus non-accessibles ont-ils une alternative HTML ?
  • Du contenu caché est-il présent sur le site ?

Contenu

  • Le contenu des balises <title> est-il pertinent ?
  • La titraille des pages est-elle pertinente ?
  • Les intitulés des liens sont-ils pertinents ?
  • Le contenu des attributs alt est-il pertinent ?
  • Le contenu en général est-il riche en expressions-clés ?
  • Le contenu est-il trop lourdement optimisé ?
  • Les expressions-clés employées sont elles les bonnes ?
  • Le site possède-t-il les contenus adéquats par rapport aux expressions-clés visées ?
  • Les contenus du site sont-ils uniques ?
  • Du contenu uniquement à destination des robots est-il présent ?

Popularité

  • Quel est le PageRank de la page d'accueil du site ?
  • Combien le site possède-t-il de liens entrants ?
  • D'où viennent les liens entrants du site ?
  • Quelles sont les ancres des liens entrants ?
  • Le site possède-t-il des liens entrants douteux ?
  • Le maillage interne du site permet-il une bonne distribution de la popularité ?

Divers

  • le site est-il doté d'une solution de mesure d'audience ?
  • Le site possède-t-il un compte Webmaster Tools ?
  • Quel est le degré de concurrence du secteur ?
  • Quels sont les concurrents directs et indirects ?
  • Quel est l'état d'optimisation des concurrents ?
  • Si le site a une dimension locale, possède-t-il une fiche Google Adresse ?
  • Le site publie-t-il sur des sites tiers (Youtube, Dailymotion, Slideshare, réseaux sociaux...) ?
  • Les publications sur les sites tiers sont-elles optimisées ?

12/04/2011

L'essentiel sur Google Suggest

La semaine dernière, Danny Sullivan sur Search Engine Land s'est fendu d'un excellent billet récapitulatif sur Google Suggest, que je ne peux que vous encourager à lire. Pour les plus pressés en voici une synthèse ;)

  • Les suggestions Google sont basées sur des recherches réelles.
  • Les suggestions peuvent varier en fonction de la localisation et de la langue.
  • Les suggestions peuvent inclure les propres recherche de l'utilisateur (si l'historique est activé).
  • Les suggestions sont classées par pertinence plus que par popularité.
  • Les suggestions corrigent (autant que possible) les fautes courantes.
  • Les suggestions peuvent être influencées par des pics temporaires de popularité (principe de QDF).
  • Certaines suggestions peuvent être filtrées (données personnelles, requêtes "illegales", requêtes "de haine"...)
  • Certaines suggestions peuvent être bloquées manuellement.
  • Il n'est pas possible de demander la suppression d'une suggestion (sauf à aller en justice).

Google : le Panda prend du poids

Impactant jusque ici uniquement les résultats américains du moteur, l'update Panda est dorénavant déployé au niveau mondial. Géographiquement du moins, puisque seuls les utilisateurs anglophones sont pour l'instant concernés.

Le Panda a également pris du muscle, nourri par le feedback des internautes utilisant la fonction de blocage des sites. La prise en compte du feedback utilisateur dans l'algorithme n'est cependant pas automatique : Google a en effet annoncé que celle-ci n'était effective que dans les "situations de haute confiance". Cette amélioration supplémentaire impacterait 2% de requêtes US supplémentaires. Le Panda nouveau concernerait donc près de 14% des requêtes.

10/03/2011

Nouvel algorithme Google : le fermier était en fait un panda

Dans une interview accordée au magazine Wired, Matt Cutts et Amit Singhal donnent quelques informations supplémentaire sur la dernière mise à jour de l'algorithme. Condensé des points les plus intéressants :

Le nom de code interne de cette update est en fait "Panda", d'après le nom d'un des ingénieurs Google ayant participé au projet. Le nom de "Farmer" avait été donné par Danny Sullivan, cet algorithme étant censé viser les fermes de contenu. Amit Singhal explique que suite à l'update Caffeine, qui a permis un crawl plus efficace, , l'index de Google a augmenté rapidement. Beaucoup de nouveaux contenus ont été indexés, dont des contenus peu qualitatifs. Le problème est que ces derniers ne ressemblaient pas aux habituels contenus semi-aléatoires habituellement bien pris en charge par le moteur, mais plutôt à des contenus creux écrits à la main. Une mise à jour s'imposait donc.

Comment reconnaître ces contenus creux ? Google explique que ses équipes ont mis au point un set de questions telles que "voyez-vous ce site comme une autorité ?", "ces contenus pourraent-ils être ceux d'un magazine ?", "trouvez-vous que ce site affiche trop de publicités ?" etc. Ces questions ont été soumises à des évaluateurs. A partir de leurs réponses, une définition des contenus non qualitatifs a été forgée. Le nouvel algorithme tente de recréer la même intuition en prenant en compte divers signaux (sans détailler lesquels, helas). Selon Google, de réelles correlations mathématiques peuvent être observées.

Quid des sites estimant avoir été pénalisés injustement ? Matt Cutts explique que l'algorithme, s'il reste perfectible est plutôt fiable. Néanmoins Google est ouvert aux retour des webmasters et a d'ailleurs ouvert un fil de de discussion sur Webmaster Central. Wisz, un employé Google, y explique en particulier que la présence de contenus de mauvais qualité dans une partie d'un site peut affecter la visibilité du site dans son ensemble. Wisz y évoque aussi les contenus que Google ne souhaite pas faire remonter dans ses pages de résultats : contenus creux, mal écrits, copiés sur d'autre sites, ou sans réelle utilité.

Enfin, Matt Cutts explique que les pages de résultats de Google restent de toute façon une opinion. La seule façon pour le moteur d'être neutre serait de fournir des résultats aléatoires, ou de trier les pages par ordre alphabétique, ce qui n'est évidemment pas ce que recherche l'utilisateur.

3/03/2011

Retour sur 2 jours de SEO Campus

Mardi et mercredi derniers avait donc lieu SEO Campus. Retour sur quelques conférences :

Philippe Yonnet sur 1 an d'évolution des moteurs

Philippe a réussi à nous résumer une année d'actualité SEO en 1h, ce qui n'est pas rien. Tous les évenements marquants ont été évoqués : montée du mobile, acquisitions Google, évolutions des interfaces, mises à jour algorithmiques... Les deux points que j'en retiens sont l'apparition de la balise link rel hreflang, passée quelque peu inaperçue, et l'insistance de Philippe sur le fait que les positions ne sont pas tout et que des pertes sensibles de positions ne se traduisent pas forcément par des pertes de trafic.

Lancement de Bing France

Bing est donc désormais officiellement lancé en France. Pour le moteur, cet évènement a été l'occasion de mettre en valeur ses partenaires (Pages Jaunes, Allociné, Gallica, GIE E-presse...) faisant de Bing "le moteur le plus français qui existe". Ce fût aussi l'occasion de promouvoir son interface, voulue plus innovante que celle des concurrents. Dixit les officiels de Microsoft, "Google est comme le DOS de la recherche, Bing veut être le Windows". La comparaison est à mon sens malheureuse quand on sait que les premières versions de Windows n'étaient qu'une surcouche graphique de DOS, càd une interface ne changeant rien au moteur derrière... La question de la pertinence n'a finalement été que très peu abordée. "C'est un débat qui appartient au passé" si l'on en croit les représentant du moteurs. A voir. Il est également regrettable que les démos utilisent toujours les même exemples. Cela réduit leur crédibilité. Concernant l'intégration des résultats Bing dans Yahoo France, celle-ci devrait se faire d'ici dans les 3 mois.

Ateliers participatifs

J'ai été amené à animer deux ateliers participatifs, l'un sur les guidelines des moteurs, l'autre sur l'écriture web. Ce format est une première pour moi et je dois avouer qu'animer un débat sur un sujet non connu à l'avance n'est pas si simple :)

Le premier atelier sur les guidelines a donné lieu à des échanges animés entre les participants, les uns clairement black-hat, les autres clairement white-hat, et beaucoup d'autres entre deux. Il en est notamment ressorti que la distinction entre les deux mondes n'est pas si simple, ou plutôt qu'elle varie selon le critère retenu (technique ? intention ?). Le second atelier a été l'occasion d'échanger en petit comité sur les pratiques d'écriture pour le web.

Exalead sur les applications avancées des moteurs de recherche

Cette conférence s'est au final avérée très sympathique après un début un peu trop abstrait à mon goût. Rien à voir avec le SEO, mais les démonstrations technologiques d'Exalead montrent des modes de recherche et des applications très innovantes, grâce à l'extraction de sens de contenus multimédias ou non explicites. Exalead permet aussi de scraper comme un goret ;) Des exemples sur Exalabs :)

David Cohen sur la réactivité et le SEO

Une présentation pas forcément technique, mais des conseils judicieux pour suivre son référencement au plus près. Parmi les conseils que nous a donné David : abusez de la fonction de comparaison de périodes dans Analytics, annotez-y les évènements relatifs au site, constituez-vous une timeline, et segmentez dans Google Analytics les différentes parties de votre site pour une analyse plus fine.

Sébastien Monnier sur les astuces Google Analytics

La présentation de Sébastien a été une de celle que j'ai apprécié le plus, de par sa clarté. Plutôt que vous résumer les astuces décrites, je vous suggère de les consulter directement sur son site ;)

Majestic SEO

Une très bonne présentation en anglais donnant des pistes créatives pour la création de liens entrants. Une des plus élégantes est sans doute la technique de la "réclamation de liens" : recensez vos liens entrants et les pages de destination associées (avec Majestic SEO par exemple), testez les entêtes HTTP de ces pages de destination, filtrez les codes 200 et vous obtiendrez toute une liste de pages faisant des liens vers vous mais dont la page de destination ne peut être atteinte. Contactez les webmasters concernés et vous gagnerez ainsi des liens facilement.

Site clinic Google

Une déception, la teneur des conseils donnés étant à la portée de n'importe quel référenceur avec un minimum d'expérience (et encore des référenceurs auraient pu donner de meilleurs conseils). L'intérêt de faire venir 3 googlers de Dublin me semble donc discutable. Il serait plus intéressant AMHA que les équipes Google vienne avec des exemples de sites de mauvaises qualités, montrant clairement ce qui est acceptable et ce qui ne l'est pas de leur point de vue, quitte à animer à coté un site clinic.

25/02/2011

Google annonce une mise à jour importante de son algorithme

Dans un billet publié hier sur le blog officiel du moteur, Matt Cutts et Amit Singhal ont annoncé une mise à jour importante de l'algorithme de Google. Cette mise à jour ne concerne pour l'instant que les résultats US du moteur et ne sera étendue que progressivement aux autres pays. Généralement, les modifications d'algorithme sont assez subtiles. Celle-ci semble plus importante que d'habitude, puisque elle toucherait 11,8% des requêtes US.

Comme d'habitude, aucun détail précis n'est donné. Pour Google, cette mise à jour a pour but "de réduire la visibilité des sites de mauvaise qualité" et concerne "les sites à faible valeur ajoutée pour l'utilisateurs, qui copient le contenu d'autres sites, ou qui ne sont pas vraiment utiles". "Les sites de haute qualité, proposant du contenu original et de l'information telle que des recherches, des études approfondies, des analyses" devraient quant à eux bénéficier de cet update.

Google précise que cette mise a jour ne repose pas sur les retours utilisateurs collectés via l'extension Personal Blocklist lancée la semaine dernière. Cependant l'examen des sites bloqués par les utilisateurs montre que ceux-ci correspondraient à 84% avec les sites identifiés par le nouvel algorithme comme étant de mauvaise qualité, ce qui démontre selon Google sa pertinence. Ce point est intéressant, car il montre la façon dont le feedback utilisateur pourrait être pris en compte par les moteurs : l'identification de sites spammy ou de mauvaise qualité serait d'abord et avant tout algorithmique, puis les indicateurs comportementaux viendraient en complément pour confirmer ou infirmer le caractère spammy des sites. Si les évaluations algorithmiques et comportementales concordent, alors le risque de faux positif est faible et le site pourrait être déclassé ou blacklisté.

Après, est-ce que tout cela bouleverse le référencement ? Mon intuition me dit "pas vraiment", surtout si on est un bisounours ;) Certains observateurs US semblent sceptiques sur cet update. Par contre il est probable que la tendance à pénaliser les sites affichant des contenus trop génériques, ou ayant trop tendance à agréger de l'information, va aller en s'accentuant.

18/02/2011

L'image SEO du vendredi

Diner SEO en famille

17/02/2011

Référencement : influer n'est pas fausser

En commentaire d'un des débats récents sur le référencement éthique, j'évoquais la différence selon moi qu'il existe entre exercer une influence et fausser. Yacine du blog Ya-Graphic m'a proposé de développer davantage mon propos. C'est chez-lui que ça se passe :)

1/02/2011

Sébastien, 34 ans, bisounours SEO

Dans le monde du référencement français, il est fréquent de désigner sous le terme de bisounours les personnes ayant une vision du métier axée sur le respect des bonnes pratiques. Le bisounours n'est ainsi qu'un white hat qui assume pleinement son positionnement. La qualification de bisounours est le plus souvent faite le ton de la badinerie. Je signe d'ailleurs volontiers de ce terme lorsque je commente chez mes confrères black hats. Parfois la qualification est moins sympathique : le bisounours serait un idéaliste un peu benêt, un doux rêveur déconnecté de la réalité.

Si je me reconnais volontiers dans la première définition, c'est bien moins le cas de la seconde (même si je confesse une tendance à l'idealisme). Faire le choix de méthodes de référencement éthiques n'est pas de la naiveté, mais au contraire un choix stratégique long-termiste, pleinement ancré dans le réel. Les méthodes black-hat sont tout à fait capables de propulser rapidement votre site dans les premiers résultats des moteurs, c'est d'ailleurs là tout leur intérêt. Les résultats ainsi obtenus peuvent même être raisonnablement durables et il faut saluer l'ingéniosité des méthodes déployées. Mais le risque est également grand de se manquer et de finir dans les oubliettes de l'algorithme. On devra donc repartir de zéro, en ayant au passage éventuellement pas mal pollué le web et déçu des visiteurs. Si ce risque est assumé, aucun problème, il ne s'agit pas de d'affirmer la supériorité de telle ou telle couleur de chapeau. Mais mon choix va vers des méthodes de référencement soutenables.

Et l'éthique dans tout ça ? Pour moi le référencement dit éthique ne peut se résumer au simple respect des guidelines des moteurs, même si ces guidelines font évidemment partie de l'éthique. L'éthique en matière de référencement consiste à ne pas nuire à autrui, qu'il s'agisse du site dont on gère la visibilité, des internautes, ou des moteurs.

20/01/2011

Ces technologies que Google indexe un peu mieux mais qui ne changent pas grand-chose...

Régulièrement, des déclarations effectuées par Google ou d'autres moteurs (si si, il en existe d'autres) laissent à penser que des technologies auparavant bloquantes pour les robots d'indexation deviennent tout à coup accessibles. Bien entendu, ces annonces font beaucoup de bruit et peuvent laisser penser aux concepteurs de sites que les vieilles limitations sont abolies. Le fait est que jusque ici, aucune révolution, ni même un changement sensible n'ont pu être observés dans les pages de résultats. Tout au plus peut-on noter quelques cas isolés, mais rien qui ne remette en cause les bonnes pratiques traditionnelles d'accessibilité.

Flash

La première annonce d'une meilleure prise en charge de Flash, en partenariat avec Adobe, date de juin 2008. Selon Google, "les designers web pouvaient s'attendre à une meilleure visibilité de leur contenus Flash". En novembre 2010, Google a annoncé de nouvelles améliorations, notamment en ce qui concerne Flash 10 et les vidéos. Reste qu'à ce jour les pages Flash se positionnant dans les SERPS doivent se compter sur les doigts d'une main... de manchot.

Si Google est capable aujourd'hui d'extraire des documents Flash du texte et des liens, le fait que l'information dans les fichiers Flash soit souvent pauvre et mal structurée interdit à ce type de sites de se positionner correctement. Il s'agit surtout pour Google de ne pas être bloqué dans le parcours d'un site et d'afficher des snippets un peu plus pertinents.

Ma recommandation : n'utilisez pas Flash pour faire des sites et si vous devez l'utiliser, mettez en place une architecture avec une URL par "page" (au lieu d'un swf unique), avec insertion d'un contenu alternatif HTML correctement balisé sur chaque page.

Javascript

Google a annoncé officiellement en mai 2009 être capable d'executer le code javascript associé à l'évenement onclick pour suivre des liens. En 2007 le moteur avait déjà déclaré pouvoir extraire quelques liens inclus dans du code javascript (sans executer le code proprement dit). Tous ces liens ont la capacité de transmettre du PageRank, et des ancres leur sont associées, ce qui est un progrès. Toutefois il est dfficile de connaître toutes les formes de codes acceptées par le moteur.

Ma recommandation : Tenez-vous en aux bonnes vieilles directives d'accessibilité et de dégradation élégante en permettant la navigation dans le site lorsque javascript est désactivé. C'est d'ailleurs ce que Google lui-même recommande.

Formulaires

Le crawl des pages accessibles via un formulaire (et utilisant la méthode GET) est confirmé depuis avril 2008. Il reste toutefois expérimental pour Google, et officiellement réservé à certains sites sélectionnés sur des critères qualitatifs. Les mots-clés utilisés dans les formulaires sont déterminés par Google à partir du contenu du site. Des observations récentes sembleraient suggérer que le contenu de la balise meta keywords pourrait également être utilisé comme mots-clés dans les formulaires. Reste que cette forme de crawl est éminement arbitraire.

Ma recommandation : si la navigation dans votre site doit dépendre d'un formulaire (ce que je ne conseille pas), utilisez la méthode GET et mettez en place une navigation alternative fournissant des liens href vers des pages de résultats du formulaire sur des mots-clés pertinents. La profondeur de cette navigation sera fonction de la richesse de votre contenu.

10/11/2010

Le SEO pour les développeurs

Invité au forum PHP organisé par l'AFUP, j'ai donné ce matin à la Villette une conférence sur le thème du référencement pour les développeurs. Pour les présents comme les absents, voici mon support de présentation :



Au passage, je prie les lecteurs réguliers de bien vouloir m'excuser du calme actuel de ce blog : c'est juste que le temps me manque. J'espère redynamiser tout ça dès que possible :)

24/09/2010

Rentrée des classes pour la licence "Référenceur et Rédacteur web"

Aaaah l'Alsace, pays des cigognes, des bretzels, du kougloff, de la choucroute et du vin... mais l'Alsace c'est aussi le berceau de la première licence consacrée au référencement et à l'écriture web. Invité le 13 septembre dernier en tant que parrain de la troisième promotion, j'ai découvert outre une équipe sympathique une volonté très forte de former des professionnels polyvalents, capables de gérer tout aussi bien les aspects techniques qu'éditoriaux du référencement (et même les aspect sociaux désormais).

J'adresse un grand merci aux responsables de la formation pour leur accueil plus que chaleureux, et souhaite une studieuse année universitaire aux 47 étudiant(e)s de la licence.

Le support de mon cours inaugural :



Ce support est également disponible sous forme de podcast sur le site de l'université (Nécessite Quicktime. Le son s'interrompt cependant dans le dernier tiers, du fait d'un problème de micro).

3/09/2010

Old School SEO : les sujets chauds en 2000

A l'occasion de la préparation d'une intervention, je me suis replongé dans les discussions SEO (on parlait de "référencement" à l'époque) des années 1999/2000. Quelques sujets typiques de cette période héroïque, pour le fun :

  • Combien de mots-clés dans la balise meta keywords ?
  • Quels séparateurs dans la balise meta keywords ? Virgule, espace ? Virgule+espace ?
  • Les mots-clés dans les commentaires HTML sont ils pris en compte ?
  • Le référencement des sites avec frames.
  • Le référencement des sites dynamiques.
  • La necessaité d'une resoumission régulières aux moteurs de recherche.
  • La difficulté de rentrer dans certains annuaires et comment contacter les documentalistes.
  • Les garanties de positionnement.
  • Soumission manuelle vs soumission automatique.

20/08/2010

De la communauté SEO en France

Existe-t-il une communauté SEO française ? C'est la question que Sylvain Peyronnet se posait dernièrement sur son blog (blog dont je recommande chaudement la lecture au passage). Sylvain déplore également le manque de structuration du secteur et appelle de ses voeux à la création d'une "archive centralisée d’articles sur le SEO".

Pour ma part je pense qu'il existe bien une communauté SEO, si l'on considère le sens américain de "community", à savoir un groupe "partageant des caractéristiques ou intérêts communs, étant perçu ou se percevant lui-même comme distinct à certains égards de la société dans laquelle il existe". Selon cette définition les référenceurs sont clairement une communauté puisque ils partagent un intérêt commun (les moteurs et l'optimisation) et sont perçus comme un groupe de gens à part (les "SEO"). Eux-même d'ailleurs se perçoivent distinctement : il n'y a qu'à voir les volées de bois vert que se prennent les malheureux qui ont l'idée d'attaquer les référenceurs. On a bien là un comportement communautaire, fût-il anarchique et protéiforme.

Pour ce qui est de créer une archive centralisée je suis sceptique, pour plusieurs raisons. Déjà il existe plusieurs lieux compilant l'essentiel de ce qu'il faut savoir pour aborder le SEO : Abondance, Oseox et bien d'autres. La forme, le niveau de détail de ces ressources peuvent varier mais sur le fond il y a consensus sur l'essentiel des techniques. La centralisation n'apporterait pas grand chose de plus en terme de qualité de l'information. De plus le contenu de ces guides est bien revu par les pairs d'une certaine façon, très informelle il est vrai : si un guide s'éloignait trop du consensus il serait vite critiqué par la communauté, ou bien ignoré. Enfin, à ma connaissance, aucune autre communauté SEO nationale n'a jamais mis en place une telle autorité centrale. Le besoin ne semble donc pas si évident.

Par contre je rejoins totalement Sylvain sur le fait d'organiser des évenements où des scientifiques et universitaires interviennent. Cela apporte vraiment une dimension supplémentaire.

30/06/2010

Retours de Susan Moskwa suite au SMX Paris

Dans une série de twitts, Susan Moskwa, analyste chez Google, a apporté quelques précisions au sujet de questions qui lui avaient été posées à l'issue de la conférence SMX à Paris et pour lesquelles elle n'avait pas de réponses immédiates à fournir :

Susan a également mis en ligne ses présentations sur le duplicate content et sur le bon usage des demandes de réinclusion.

< 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 >