Développement Logiciel

05 janvier 2008

Les moteurs de recherche qui scannent le Web

En regardant en détail les logs d'un site Web filtrés par le User-Agent, on découvre un certain nombre de bots ou crawlers pas forcément connus.

Certains sont japonais ou indiens, il n'est donc pas très utile d'être indexé par eux lorsque l'on édite un site en langue Française.

D'autre ne sont que des moteurs destinés à alimenter des annuaires que plus personne ne consulte aujourd'hui. Ils ne contribuent qu'à ajouter du spam sur Internet.

J'en ai recensé quelques uns, on pourra éventuellement interdire leurs adresses IP respectives dans le fichier .htaccess d'Apache, afin de limiter la bande passante utilisée par le serveur.

Moteurs Japonais:

Ichiro:

Adresse IP: 210.150.10.112
User-Agent: ichiro/2.0 (http://help.goo.ne.jp/door/crawler.html)
Hostname: crs023.goo.ne.jp

Steeler:

Adresse IP: 157.82.156.159
User-Agent: Steeler/3.3 (http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
Hostname: crawl159.tkl.iis.u-tokyo.ac.jp

Moteurs Indiens:

GurujiBot:

Adresse IP: 72.20.109.34
User-Agent: GurujiBot/1.0 (+http://www.guruji.com/en/WebmasterFAQ.html)
Hostname: guruji.com

J'ai également noté le passage d'un moteur nommé Omni-Crawler ou Omni-Explorer, qui a le défaut de passer souvent.

Ce moteur indexe les annonces d'achat/vente de voitures ou d'immobilier aux Etats Unis (vast.com), il est donc sans intérêt:

OmniExplorer:

Adresse IP: 72.44.50.39
User-Agent: OmniExplorer_Bot/6.10.7 (+http://www.omni-explorer.com) WorldIndexer
Hostname: ec2-72-44-50-39.z-1.compute-1.amazonaws.com

Le "moteur" GnoZtik semble être un moteur sans grand intérêt (c'est un annuaire de plus):

GnoZtiK:

Adresse IP: 219.117.195.201
User-Agent: GnoZtiK bot/1.0 (http://www.gnoztik.com
Hostname: 219.117.195.201.static.zoot.jp

ainsi que MJ12bot qui passe beaucoup trop souvent:

MJ12bot:

Adresse IP: 151.65.138.82
User-Agent: MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+)
Hostname: 151.65.138.82

Enfin, archive.org archive les pages trouvées sur Internet, ce que l'on ne souhaite pas forcément:

archive.org_bot:

Adresse IP: 208.70.26.113
User-Agent: Mozilla/5.0 (compatible; archive.org_bot/1.13.1x +http://crawler.archive.org)
Hostname: crawling13.us.archive.org

Libellés : bots, crawler, GnoZtik, gurujibot, ichiro, index, MJ12bot, moteurs, moteurs de recherche, Omni-Explorer, steeler

Développement Logiciel

05 janvier 2008

Les moteurs de recherche qui scannent le Web

0 commentaires:

25 octobre 2007

Gmail ajoute le protocole IMAP

0 commentaires:

18 octobre 2007

Pas de R&D Google en France !

0 commentaires:

15 octobre 2007

Suppression de répertoire dans l'index de Google

0 commentaires:

14 octobre 2007

Votre site Web dupliqué gratuitement !

0 commentaires:

08 septembre 2007

Entrées Sitemap et Crawl-delay dans le fichier robots.txt

0 commentaires:

07 septembre 2007

Suppression d'URL du cache de Google

0 commentaires:

Bug de l’opérateur blogurl de la recherche de blog de Google

0 commentaires:

02 août 2007

Gatineau: concurrent de Google Analytics ?

0 commentaires:

21 juillet 2007

Recherche anonyme avec Ixquick

0 commentaires:

24 mai 2007

Un article sur les futurs concurrents de Google

0 commentaires:

15 avril 2007

Support du fichier sitemap.xml dans robots.txt

0 commentaires:

26 février 2007

Plus de Guide Web sur voila.fr

0 commentaires:

27 juin 2006

Google Sitemaps: les statistiques de votre site Web

0 commentaires:

13 juin 2006

Google Earth sur Linux

0 commentaires:

07 avril 2006

Wikio: moteur de recherche d’actualités

0 commentaires:

15 mars 2006

Un futur concurrent pour Google ?

0 commentaires:

04 mars 2006

Nouveau moteur de recherche en France

0 commentaires:

Développement Logiciel

Lbellés

Liens Partenaires

Articles précédents

Informatique / Open Source / Linux / Debian / Autres

Articles sur l'informatique (Attention ça date !)

Musique Rock

Téléchargement légal de Musique - Ecoute en ligne

Abonnement