Pourquoi un aspirateur ? D'abord, ce n'est pas DoS, c'est trop petit. 25000 requêtes sur une heure, c'est ridicule. Donc c'est un ou des utilisateurs, pas franchement normaux, vu le rythme tout même élevé pour l'humain moyen.

S'il s'agissait d'un phénomène de masse comme l'apparition d'un lien pointant une de mes pages sur un site à gros trafic, les requêtes seraient plus étalées dans le temps et la différence se verrait sur une période plus longue. De plus, j'aurais deux pics, le premier sur le nombre de requêtes sur la page en question et le second sur le Referer qui la pointe. Or, rien ne se détache de ce côté là. De plus, je n'ai pas de pic non plus sur le nombre de visites, ce qui tend à montrer que tout à eu lieu sur un nombre très réduit de visites.

J'ai par contre une IP qui, dès sa première apparition, se retrouve satellisée en tête du tableau des hits par source ainsi qu'un User Agent pas franchement classique arrivant en troisième position derrière les classiques "Mozilla/5.0" et "MSIE 6.0" alors que ses passages se comptaient sur les doigts de la main auparavant, à savoir "Wget/1.10.2 (Red Hat modified)". Ainsi, sur le mois de juillet, monsieur 88.191.XX.XX, apparemment une jolie Dedibox dont la résolution DNS inverse conduit à une série de résultats assez amusant[1], totalise à lui seul, en 53 minutes, 20% des hits enregistré et 4% du volume transféré[2], avec un total de 24307 requêtes. Joli.

So what ? Ce n'est pas que ça me dérange de me faire pomper l'intégralité de mon site Web. Si j'ai mis des choses en ligne, c'est pour qu'elle puissent être consultées. Et bien que ça hérisse certaines personnes qu'on repompe l'intégralité ou une grosse partie de leurs pages, ce n'est pas mon cas. Car si ça m'ennuyait tant que ça, j'aurais pris un malin plaisir à truffer mes pages de liens cachés pointant vers des scripts qui tournent sur eux-même en changeant de nom histoire de bien faire tourner les gens dans le vide[3], mais il parait pas que c'est pas bon pour le Google Rank ;)

Ce qui m'ennuie, c'est plus que ça ait été fait avec un outil comme Wget qui, tout excellent qu'il est par ailleurs, n'est pas vraiment fait pour mirrorer des sites dynamiques. Ben oui, parce que ma page perso proprement dite tourne sous Mediawiki et ce truc là nous pond des liens dans tous les coins : discussion, édition, historique des révisions, pages spéciales, etc. Ce qui lui fait totaliser environ 10000 hits sur ce seul Wiki pour... 40 articles publiées. Et en terme de trafic, ça a été la fête quand il est passé sur la page avec les vidéos. Voilà ce que ça donne sur la sortie Internet :

24h de trafic

Et sur le port du switch connecté au serveur[4] :

24 heures de trafic

Comme on peut le voir, un peu avant 20h15, on a un gros pic à presque 25Mbps, qui correspond effectivement au rapatriement des fichiers qui s'y trouvaient linkées. En fait, si on considère chaque fichier individuellement, on a une pointe à 55Mbps sur l'un des plus gros... Et encore, heureusement que Wget lit et respecte les fichiers robots.txt quand il est lancé en mode récursif, sinon la gallerie de photos nous aurait fait mal, à lui comme à moi. Comme quoi, des fois, c'est super pratique d'avoir un hébergement bien configuré avec des vrais morceaux de bande passante derrière.

En tout cas, ça montre bien l'intérêt d'utiliser des crawlers un peu intelligents, ou tout simplement leur passer quelques options, quand on veut repomper un site web, autant pour ne pas démolir la bande passante de son propriétaire que pour ne pas se retrouver avec quelques 7000 pages au lieu de 40 avec du vrai contenu. Des outils, même simples, comme Larbin, Websphinx ou encore HarvestMan permettent cela.

Notes

[1] Comme le fait que ce soit un nœud de sortie Tor, mais qui refuse les connexions vers TCP/80...

[2] 1,2Go tout de même, soit un petit 3Mbps de moyenne...

[3] Et pas dans le /dev/random, parce que l'entropie, ça coûte cher ;)

[4] Le quantum de temps (5 minutes) est ici plus grand, d'où le calcul d'un pic inférieur.