05 janvier 2008

Les moteurs de recherche qui scannent le Web

En regardant en détail les logs d'un site Web filtrés par le User-Agent, on découvre un certain nombre de bots ou crawlers pas forcément connus.

Certains sont japonais ou indiens, il n'est donc pas très utile d'être indexé par eux lorsque l'on édite un site en langue Française.

D'autre ne sont que des moteurs destinés à alimenter des annuaires que plus personne ne consulte aujourd'hui. Ils ne contribuent qu'à ajouter du spam sur Internet.

J'en ai recensé quelques uns, on pourra éventuellement interdire leurs adresses IP respectives dans le fichier .htaccess d'Apache, afin de limiter la bande passante utilisée par le serveur.

Moteurs Japonais:

Ichiro:

Adresse IP: 210.150.10.112
User-Agent: ichiro/2.0 (http://help.goo.ne.jp/door/crawler.html)
Hostname: crs023.goo.ne.jp

Steeler:

Adresse IP: 157.82.156.159
User-Agent: Steeler/3.3 (http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
Hostname: crawl159.tkl.iis.u-tokyo.ac.jp

Moteurs Indiens:

GurujiBot:

Adresse IP: 72.20.109.34
User-Agent: GurujiBot/1.0 (+http://www.guruji.com/en/WebmasterFAQ.html)
Hostname: guruji.com

J'ai également noté le passage d'un moteur nommé Omni-Crawler ou Omni-Explorer, qui a le défaut de passer souvent.

Ce moteur indexe les annonces d'achat/vente de voitures ou d'immobilier aux Etats Unis (vast.com), il est donc sans intérêt:

OmniExplorer:

Adresse IP: 72.44.50.39
User-Agent: OmniExplorer_Bot/6.10.7 (+http://www.omni-explorer.com) WorldIndexer
Hostname: ec2-72-44-50-39.z-1.compute-1.amazonaws.com

Le "moteur" GnoZtik semble être un moteur sans grand intérêt (c'est un annuaire de plus):

GnoZtiK:

Adresse IP: 219.117.195.201
User-Agent: GnoZtiK bot/1.0 (http://www.gnoztik.com
Hostname: 219.117.195.201.static.zoot.jp

ainsi que MJ12bot qui passe beaucoup trop souvent:

MJ12bot:

Adresse IP: 151.65.138.82
User-Agent: MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+)
Hostname: 151.65.138.82

Enfin, archive.org archive les pages trouvées sur Internet, ce que l'on ne souhaite pas forcément:

archive.org_bot:

Adresse IP: 208.70.26.113
User-Agent: Mozilla/5.0 (compatible; archive.org_bot/1.13.1x +http://crawler.archive.org)
Hostname: crawling13.us.archive.org

Libellés : , , , , , , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil