Il est des cas où l'on est dans l'impossibilité d'avoir accès à la liste exhaustive des sous-domaines d'un site. Pourtant les connaitre est très utile, notamment pour s'assurer que le site ne propose pas de contenus dupliqué ou obsolètes. Hélas il n'existe pas de commande toute faite du coté des moteurs, et à ma connaissance aucun service en ligne ne propose de solution miracle. Aussi je vous propose la méthode empirique suivante, basée sur la commande "site:" de Google que l'on va combiner à divers opérateurs pour affiner progressivement les résultats. cette méthode est à personnaliser selon les cas : l'idée est de supprimer le maximum de résultats non souhaités. Attention, un sous-domaine inconnu de Google ne pourra pas être trouvé via cette méthode.

Le point de départ est de lister toutes les pages connues du domaine à l'exception du sous-domaine "www" qui est le sous-domaine par défaut de la majorité des sites. La commande est donc :

"site:exemple.fr -site:www.exemple.fr"

Le problème est que nous recherchons surtout les racines des sous-domaines et non pas toutes les URLs que Google connait. Nous allons donc filtrer les extensions de fichiers les plus communes :

"site:exemple.fr -site:www.exemple.fr -filetype:html -filetype:htm -filetype:php -filetype:asp -filetype:pdf -filetype:swf"

Un autre problème qui peut se poser est que certains sous-domaines peuvent retourner un grand nombre de résultats non-filtrables via les extensions de fichier. Dans ce cas il convient de les filtrer manuellement grâce à la commande "-site:" ce qui évitera de paginer à tout va :

"site:exemple.fr -site:www.exemple.fr -filetype:html -filetype:htm -filetype:php -filetype:asp -filetype:pdf -site:blog.exemple.fr"

Ah si seulement on pouvait requêter les moteurs à l'aide d'expressions régulières...