Pour ceux que l'anglais rebute, une petite explication du "proxy de mise en cache du crawl" (crawl caching proxy) évoqué par Matt Cutts sur son blog :

Les serveur proxy sont fréquemment utilisés par les FAI et les réseaux d'entreprise pour réduire leur bande passante. Concrètement, un serveur proxy agit comme un cache mutualisé : quand un utilisateur se rend sur une page web, celle-ci est mise en cache dans le proxy. Les autres utilisateurs souhaitant acceder à cette page se verront servir non pas la page originale, mais celle enregistrée dans le cache. La bande passante est ainsi économisée, puisque le nombre d'accès à la page originale est réduit.

Ce que Google a fait, c'est appliquer ce système de cache à l'indexation : au lieu d'indexer une page de multiples fois via ses différents robots (Googlebot, Mediapartners, Newsearch, Blogsearch etc...), Google a mis en place un proxy utilisé par ceux-ci. Une page indexée une première fois par l'un des robots et mise dans le cache pourra donc être y récupérée par les autres robots, réduisant le nombre d'accès à la page originale.

Ce qu'il faut comprendre, c'est que le fait de participer à Adsense ou d'être indexé dans Google News n'influe en rien sur l'indexation dans les pages de résultats web du moteur. Le système ne fait que mettre en cache les pages pour les servir aux robots qui en font la demande. Ainsi, une page indexée par Mediapartners (le robot Adsense) ne se retrouvera dans l'index web que si Googlebot demande cette page et y accède.