Comprendre le "crawl caching proxy" de Google

Pour ceux que l'anglais rebute, une petite explication du "proxy de mise en cache du crawl" (crawl caching proxy) évoqué par Matt Cutts sur son blog :

Les serveur proxy sont fréquemment utilisés par les FAI et les réseaux d'entreprise pour réduire leur bande passante. Concrètement, un serveur proxy agit comme un cache mutualisé : quand un utilisateur se rend sur une page web, celle-ci est mise en cache dans le proxy. Les autres utilisateurs souhaitant acceder à cette page se verront servir non pas la page originale, mais celle enregistrée dans le cache. La bande passante est ainsi économisée, puisque le nombre d'accès à la page originale est réduit.

Ce que Google a fait, c'est appliquer ce système de cache à l'indexation : au lieu d'indexer une page de multiples fois via ses différents robots (Googlebot, Mediapartners, Newsearch, Blogsearch etc...), Google a mis en place un proxy utilisé par ceux-ci. Une page indexée une première fois par l'un des robots et mise dans le cache pourra donc être y récupérée par les autres robots, réduisant le nombre d'accès à la page originale.

Ce qu'il faut comprendre, c'est que le fait de participer à Adsense ou d'être indexé dans Google News n'influe en rien sur l'indexation dans les pages de résultats web du moteur. Le système ne fait que mettre en cache les pages pour les servir aux robots qui en font la demande. Ainsi, une page indexée par Mediapartners (le robot Adsense) ne se retrouvera dans l'index web que si Googlebot demande cette page et y accède.

Commentaires

1. Le 25/04/2006, par TOMHTML :: site

Merci pour la traduction !
ça tombe bien, j'avais rien compris ^^

par contre ça veut dire qu'après le passage d'un bot, si tu mets à jour ton document, les autres bots ne verront que l'ancienne version. Pas classe :-S

2. Le 25/04/2006, par Sébastien Billard :: site

En fait, il y a une gestion intelligente du cache, qui évite le problème que tu mentionnes. Par contre ceux qui pratiquent le cloaking par user-agent pourraient avoir des surprises en voyant des contenus destinés à certains robots indexés par d'autres ;)

3. Le 26/04/2006, par Bertrand Dubuis :: site

Le fait de mettre noarchive dans la balise robots change cette état de chose ou ça ne fait aucune différence pour les pages en cache ?

4. Le 26/04/2006, par damien :: site

Des économies pour google, mais une indexation moins pertinente ...

J'indexe l'indexation d'un moteur, qui a indexé un moteur qui a .......

5. Le 26/04/2006, par Fab le Fou :: site

Cela semble être le bon sens même que les différents robots coopèrent, mais ce qui serait bien c'est que cela se couple avec une meilleure prise en compte du fichier sitemap.xml et notamment des dates de dernières mises à jour. Bref, que plus qu'un gain de charge, cela soit plutôt une meilleure gestion de la charge, permettant une indexation plus intelligente et réactive.

6. Le 26/04/2006, par Ludo :: site

"Le système ne fait que mettre en cache les pages pour les servir aux robots qui en font la demande. Ainsi, une page indexée par Mediapartners (le robot Adsense) ne se retrouvera dans l'index web que si Googlebot demande cette page et y accède."

Concretement, ca veut dire qu'on peut mettre robotstat a la poubelle, s'il n'est plus possible via ce moyen de savoir quand googleboot a indexé une page.

y'a t'il un autre moyen de savoir ce que googleboot indexe (a part la commande site: )

7. Le 26/04/2006, par Sébastien Billard :: site

Bertrand : Noarchive concerne seulement le cache visible par les utilisateurs, pas le cache "interne" utilisé par Google pour juger de la pertinence d'une page.

Damien : L'indexation n'est je pense aucunement moins pertinente puisque c'est la même page qui est crawlée. Seule le robot change.

Ludo : Bonne remarque. Effectivement quand Googlebot accède à une version cachée d'une page, son passage ne sera pas comptabilisé. Ce qui peut expliquer la baisse d'activité apparente de Googlebot pour certains sites.

8. Le 5/05/2006, par mrgo

Bonne méthode pour contrer le cloacking par user-agent effectivement.
Reste à connaître la fréquence de rafraichissement de la page mise en cache dans ce proxy...

9. Le 5/05/2006, par Sébastien Billard

Cela dépend de la fréquence des venues des différents bots. C'est donc très variable. Par contre on peut supposer qu'afficher des Adsense, en provoquant la venue régulière de Mediapartners pourrait favoriser la fraicheur du cache.

Ajouter un commentaire

Les commentaires pour ce billet sont fermés.

Référencement, Design et Cie