Référencement, Design et Cie

Attention ce blog a déménagé et est en lecture seule. Cliquez ici pour accéder à mon nouveau blog SEO

Aller au contenu | Aller au menu | Aller à la recherche © Sébastien Billard

19/05/2011

Sick Scraper, un logiciel de scraping gratuit

Signalé par Supergago sur le forum Seosphère, Sick Scraper est un logiciel de scraping totalement gratuit qui propose les mêmes fonctionnalités que le module Harvester du célèbre Scrapebox. Le logiciel est volontairement bien moins complet que Scrapebox, puisque conçu comme un complément à Sick Submitter, le produit phare de l'éditeur. Mais il reste un très bon outil pour aller à la chasse aux URLs.

Comme Scrapebox, la recherche des URLs se fait en spécifiant une empreinte (ou footprint, par exemple "ajouter un site") et optionnellement des mots-clés. Le logiciel va alors interroger les moteurs de recherche spécifiés et extraire les URLs des pages de résultats. Pour du scraping massif il est possible d'utiliser des proxies, que le logiciel peut récuperer de lui-même. Une fois les URLs scrapées, Sick Scraper permet d'appliquer divers traitements pour nettoyer les résultats, comme la suppression des doublons, la suppression des résultats multiples d'un même site, la suppression des URLs correspondants à des fichiers, et la récupération des pageranks des URLs.

Combiné à un logiciel de complétion de formulaires comme Fireform, lui aussi gratuit, Sick Scraper permet ainsi d'accélerer significativement la soumission aux annuaire, la recherche de billets à commenter etc. Ces opérations doivent bien sûr être effectuées de façon légitime et manuelle :)

10/05/2011

SEO : bien appréhender un site en 40 questions (environ)

Que l'on soit consultant ou que l'on travaille chez l'annonceur, l'optimisation du référencement d'un site passe toujours par une phase de découverte qui va concerner la structure du site, son contenu, sa popularité et divers aspects liés au marketing.

Par où commencer ? On peut parfois se sentir perdu...Aussi voici une quarantaine de questions à se poser pour bien appréhender un site. Ces questions constituent une grille de lecture personnelle, et ne prétendent pas être la checklist ultime. En particulier, il ne s'agit pas de faire un inventaire complet des possibilités d'optimisation. Mais répondre à ces questions devrait vous permettre de détecter la plus grosse partie des problèmes susceptibles de se poser en matière de référencement. Notez que cette checklist peut également servir en avant-vente, pour estimer la quantité de travail nécessaire à une prestation ;)

Structure

  • Quels sont les noms de domaines rattachés au site ?
  • Dans le cas d'un site multi-domaines un domaine canonique est-il défini ?
  • Le site possède-t-il bien une extension (TLD) adaptée au marché visé ?
  • Quels sont les sous-domaines du site ?
  • Les URLs sans "www" sont-elles redirigées vers leurs équivalents avec "www" ?
  • Le temps de chargement des pages est-il satisfaisant ?
  • Quel est le contenu des entêtes HTTP des pages ?
  • Le protocole HTTPS est-il utilisé sur le site ?
  • Existe-t-il des redirections multiples ?
  • Quel est le contenu des entêtes HTML (<head>) des pages ?
  • Quel est le contenu du fichier robots.txt ?
  • Pour les gros sites, un sitemap XML est-il présent ?
  • L'ensemble des pages du site sont-elles techniquement accessibles ?
  • Combien de clics faut-il pour accéder aux pages les plus profondes ?
  • La sémantique du balisage HTML est-elle respectée ?
  • Des pages du sites sont-elles accessibles via plusieurs URLs (duplicate content) ?
  • Si des pages sont accessibles via plusieurs URLs, des URLs canoniques sont-elles définies ?
  • Les contenus non-accessibles ont-ils une alternative HTML ?
  • Du contenu caché est-il présent sur le site ?

Contenu

  • Le contenu des balises <title> est-il pertinent ?
  • La titraille des pages est-elle pertinente ?
  • Les intitulés des liens sont-ils pertinents ?
  • Le contenu des attributs alt est-il pertinent ?
  • Le contenu en général est-il riche en expressions-clés ?
  • Le contenu est-il trop lourdement optimisé ?
  • Les expressions-clés employées sont elles les bonnes ?
  • Le site possède-t-il les contenus adéquats par rapport aux expressions-clés visées ?
  • Les contenus du site sont-ils uniques ?
  • Du contenu uniquement à destination des robots est-il présent ?

Popularité

  • Quel est le PageRank de la page d'accueil du site ?
  • Combien le site possède-t-il de liens entrants ?
  • D'où viennent les liens entrants du site ?
  • Quelles sont les ancres des liens entrants ?
  • Le site possède-t-il des liens entrants douteux ?
  • Le maillage interne du site permet-il une bonne distribution de la popularité ?

Divers

  • le site est-il doté d'une solution de mesure d'audience ?
  • Le site possède-t-il un compte Webmaster Tools ?
  • Quel est le degré de concurrence du secteur ?
  • Quels sont les concurrents directs et indirects ?
  • Quel est l'état d'optimisation des concurrents ?
  • Si le site a une dimension locale, possède-t-il une fiche Google Adresse ?
  • Le site publie-t-il sur des sites tiers (Youtube, Dailymotion, Slideshare, réseaux sociaux...) ?
  • Les publications sur les sites tiers sont-elles optimisées ?