05 janvier 2008

Les moteurs de recherche qui scannent le Web

En regardant en détail les logs d'un site Web filtrés par le User-Agent, on découvre un certain nombre de bots ou crawlers pas forcément connus.

Certains sont japonais ou indiens, il n'est donc pas très utile d'être indexé par eux lorsque l'on édite un site en langue Française.

D'autre ne sont que des moteurs destinés à alimenter des annuaires que plus personne ne consulte aujourd'hui. Ils ne contribuent qu'à ajouter du spam sur Internet.

J'en ai recensé quelques uns, on pourra éventuellement interdire leurs adresses IP respectives dans le fichier .htaccess d'Apache, afin de limiter la bande passante utilisée par le serveur.

Moteurs Japonais:

Ichiro:

Adresse IP: 210.150.10.112
User-Agent: ichiro/2.0 (http://help.goo.ne.jp/door/crawler.html)
Hostname: crs023.goo.ne.jp

Steeler:

Adresse IP: 157.82.156.159
User-Agent: Steeler/3.3 (http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
Hostname: crawl159.tkl.iis.u-tokyo.ac.jp

Moteurs Indiens:

GurujiBot:

Adresse IP: 72.20.109.34
User-Agent: GurujiBot/1.0 (+http://www.guruji.com/en/WebmasterFAQ.html)
Hostname: guruji.com

J'ai également noté le passage d'un moteur nommé Omni-Crawler ou Omni-Explorer, qui a le défaut de passer souvent.

Ce moteur indexe les annonces d'achat/vente de voitures ou d'immobilier aux Etats Unis (vast.com), il est donc sans intérêt:

OmniExplorer:

Adresse IP: 72.44.50.39
User-Agent: OmniExplorer_Bot/6.10.7 (+http://www.omni-explorer.com) WorldIndexer
Hostname: ec2-72-44-50-39.z-1.compute-1.amazonaws.com

Le "moteur" GnoZtik semble être un moteur sans grand intérêt (c'est un annuaire de plus):

GnoZtiK:

Adresse IP: 219.117.195.201
User-Agent: GnoZtiK bot/1.0 (http://www.gnoztik.com
Hostname: 219.117.195.201.static.zoot.jp

ainsi que MJ12bot qui passe beaucoup trop souvent:

MJ12bot:

Adresse IP: 151.65.138.82
User-Agent: MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+)
Hostname: 151.65.138.82

Enfin, archive.org archive les pages trouvées sur Internet, ce que l'on ne souhaite pas forcément:

archive.org_bot:

Adresse IP: 208.70.26.113
User-Agent: Mozilla/5.0 (compatible; archive.org_bot/1.13.1x +http://crawler.archive.org)
Hostname: crawling13.us.archive.org

Libellés : , , , , , , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

25 octobre 2007

Gmail ajoute le protocole IMAP

Google va ajouter sur l'ensemble des comptes Gmail le protocole IMAP utilisable sur les clients lourds comme Thunderbird, Evolution ou Outlook.

Après l'augmentation de l'espace de stockage sur Gmail, c'est une initiative qui va ravir les utilisateurs de Gmail puisque le protocole POP3 de Gmail posait de nombreux problèmes depuis quelques temps.

Le protocole IMAP ne sera néanmoins pas disponible immédiatement sur tous les comptes Gmail ; le déploiement se fera progressivement.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

18 octobre 2007

Pas de R&D Google en France !

Google vient d'ouvrir un centre de Recherche et Développement au centre de Munich en Allemagne.

En Europe, Google compte déjà des sites de R&D dans les pays suivants: Suisse, Irlande, Danemark, Pologne, Grande-Bretagne, Suède, Norvège et Russie.

Aussi surprenant (ou pas ...) que cela puisse paraître, Google ne dispose toujours pas d'entités de R&D en France.

Alors ? La France n'attirerait donc pas les talents de R&D en informatique ???

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

15 octobre 2007

Suppression de répertoire dans l'index de Google

La suppression d'un répertoire entier d'un site Web dans l'index de Google doit être demandée auprès de l'interface Google Webmasters Tools.

Néanmoins, il ne suffit pas que les pages du répertoire répondent par un code 404.

En fait, il semble que Google exige que le répertoire soit rendu inaccessible par le fichier robots.txt, par exemple:

User-agent: Googlebot
Disallow: /dir-deleted/

Dans le cas contraire, la demande de suppression sera refusée.

Libellés : , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

14 octobre 2007

Votre site Web dupliqué gratuitement !

En effectuant une petite recherche Google, je viens de trouver mon site Web personnel purement et simplement dupliqué sur un sous-domaine de googlec2c.com.tw (bien nommé !).

L'accès à ce site frauduleux est heureusement extrèmement lent, mais il est malheureusement déjà indexé par Google.

Seule consolation, les spammeurs d'index de googlec2c.com.tw ont laissé mon propre Copyright sur les pages incriminées !!!

Il semble que le domaine googlec2c.com.tw appartienne à une société Taiwanaise nommée WinPerTurn Corp. et qui édite un soft MojoLingo pour le Web, en l'occurence des outils de traduction de pages Web.

L'utilisation de MojoLingo suppose d'être propriétaire du site que l'on désire traduire (et apparemment mettre en ligne sur googlec2c.com.tw), mais évidemment ça n'est pas respecté.

Ce logiciel MojoLingo est redoutable dans la mesure ou il crée des pages html même pour les pages liées depuis votre site et qui ne lui appartiennent pas ... Par exemple, Publication de Debian GNU/Linux 4.0.

Moralité si je comprends bien, ce soft permet de dupliquer n'importe quel contenu très facilement, et évidemment cette société WinPerTurn Corp. s'en lave les mains étant donné que l'utilisateur est censé respecter les "termes du service", ce qu'il ne fait pas.

La société WinPerTurn Corp. ne semble pas très connue de Google qui propose spontanément:
Essayez avec cette orthographe : Winterthurn

Le code Adsense a été modifié, c'est bien mon code qui reste mais la portion:
src="http://pagead2.googlesyndication.com/pagead/show_ads.js"

a été changée, ce qui fait que Google Adsense n'affiche plus rien !

J'ignore si un:

#googlec2c.com.tw
deny from 203.66.143.109

dans le fichier .htaccess d'Apache est efficace, les robots ne provenant pas forcément de là, mais à tout hasard pour l'avenir !

N'hésitez pas à signaler ce genre de spam d'index à Google si vous en trouvez ; ce genre de pratique ne fait plaisir qu'aux détracteurs d'Internet.

PS: Pour couronner le tout, mon blog a été également dupliqué !

Libellés : , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

08 septembre 2007

Entrées Sitemap et Crawl-delay dans le fichier robots.txt

Les Entrées 'Sitemap' et 'Crawl-delay' du fichier robots.txt permettent respectivement de spécifier auprès d'un moteur de recherche le fichier sitemap.xml du site et le délai minimal entre deux crawls successifs.

Je viens de me rendre compte que ces deux entrées dans robots.txt sont globales à tous les moteurs de recherche (entrée 'User-agent' de robots.txt).

En tous cas, c'est ce que me signale l'interface de Google Outils pour Webmasters.

Pour l'entrée 'Sitemap', cela parait logique, dans la mesure ou l'on ne va pas décliner des Sitemaps différents selon le moteur dont il s'agit.

Par contre, il est suprenant que l'entrée 'Crawl-delay' soit globale à tous les bots, parce que l'on peut vouloir limiter la fréquence de passage d'un moteur par rapport à un autre.

On pourra consulter le fichier robots.txt suivant pour en savoir plus.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

07 septembre 2007

Suppression d'URL du cache de Google

J'ai testé la suppression de contenu dans le cache de Google via l'interface de Google Sitemaps.

Dans l'onglet "Diagnostic", on choisit "Suppressions d'URL" puis "Nouvelle demande de suppression".

Google précise les règles à respecter pour pouvoir effectivement supprimer la page du cache (ou la page tout court si c'est ce que l'on veut):

  • Vérifiez que les demandes d'accès à la page renvoient le code d'état HTTP 404 ou 410
  • Bloquez la page à l'aide d'un fichier robots.txt
  • Bloquer la page à l'aide d'une balise META "noindex"

Il suffit qu'une condition soit respectée.

On choisit alors parmi:

  • URL individuelles : pages web, images ou autres fichiers Supprimer des pages Web, images et autres documents bloqués ou périmés des résultats de recherche Google
  • Un répertoire et tous les sous-répertoires de votre site Supprimer l'ensemble des fichiers et sous-répertoires d'un répertoire donné de votre site des résultats de recherche Google
  • Totalité de votre site Supprimer votre site des résultats de recherche Google
  • Copie en cache d'un résultat de recherche Google

Une fois sélectionné "Copie en cache d'un résultat de recherche Google", il suffit d'indiquer le chemin relatif du fichier en question.

Pour ma part, les URL ont été supprimées du cache en 4 jours ; au plus, je n'avais pas vérifié avant.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

Bug de l’opérateur blogurl de la recherche de blog de Google

L’opérateur blogurl de la recherche de blogs de Google semble avoir quelques soucis actuellement puisqu’il ne retourne que les nouveaux posts.

En effectuant une recherche pas mots clés, les anciens posts figurent bien dans la base mais avec l’URL simplement ou avec blogurl, rien …

Ce n’est pas la première fois que cela arrive, souvent la recherche de posts avec l’URL du blog ne donne pas tous les posts quand on sélectionne la période désirée.

C’est dommage parce que je pense que la recherche de blog de Google est plus simple à utiliser que de devoir se promener sur tous les technoratis du Web, mais bon !

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

02 août 2007

Gatineau: concurrent de Google Analytics ?

Microsoft annonçait récemment la disponibilité du produit Gatineau, concurrent de Google Analytics.

Gatineau est un produit de mesure d’audience de site Web comme Google Analytics, en version Microsoft.

On ne sait pas encore si Gatineau sera gratuit ou payant, mais d’ores et déjà le produit Gatineau de Microsoft permettra aux visiteurs de sites Web connectés sur leur compte Live Messenger de voir leur profil mémorisé par le site qu’ils visitent.

En clair, Gatineau devrait permettre de faire des statistiques sur l’age et le sexe des visiteurs …

Bien moyen tout ça.

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

21 juillet 2007

Recherche anonyme avec Ixquick

Le métamoteur de recherche Américain Ixquick permet de faire des recherches sur Internet tout en restant anonyme.

C'est précisé sur la page Ixquick protége votre Vie Privée.

Les logs de connexions sont supprimées au bout de 24 heures, alors que Google conserve les résultats de recherche pendant 18 mois ...

C'est un peu comme si Ixquick agissait en tant que proxy (comme le réseau Tor par exemple) puiqu'il effectue les recherches pour vous auprès de Google ou de Yahoo !, et que ces derniers ne voient que des requêtes provenant de Ixquick.

Récemment, le moteur de recherche ask.com a promis lui aussi la recherche anonyme sur Internet, mais cela ne sera opérationnel qu'en 2008.

Une initiative intéressante que celle d'Ixquick surtout pour les Français qui ont récemment élu Nicolas Sarkozy à la présidence de la république.

Libellés : , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

24 mai 2007

Un article sur les futurs concurrents de Google

En bref, un article très intéressant sur les futurs concurrents de Google paru sur le Site des Echos.

Ou l’on voit que Google n’est pas le seul moteur de recherche même s’il domine et que cette situation de quasi-monopole pourrait un jour changer, étant donné les marchés considérables que constitue la recherche d’informations sur Internet.

Libellés : ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

15 avril 2007

Support du fichier sitemap.xml dans robots.txt

Les trois géants de la recherche sur Internet, Google, Yahoo ! et Microsoft se sont mis d'accord il y a quelques temps pour supporter le même protocole Sitemap.

Une nouvelle entrée vient d'être ajoutée dans le fichier robots.txt.

Cette nouvelle entrée du fichier robots.txt permet de préciser où se trouve le fichier sitemap.xml, que l'on soumet habituellement auprès de Google Webmaster Tools.

Il suffit d'indiquer:
Sitemap: http://www.mysite.com/sitemap.xml

dans le fichier robots.txt.

Google ne précise cependant pas si cette entrée du fichier robots.txt doit être positionnée pour chaque moteur de recherche ou si elle peut résider dans la section générique:
User-agent: *

Personnellement, je préfère utiliser une entrée par moteur de recherche plus une entrée dans la section générique, car les crawlers ne lisent généralement pas la suite du fichier robots.txt lorsqu'ils ont trouvé la section qui leur correspond.

Par ailleurs, on a appris que le moteur de recherche Ask supporte désormais lui aussi le protocole Sitemap.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

26 février 2007

Plus de Guide Web sur voila.fr

Le moteur de recherche Voila de France Télécom disposait d’un guide Web un peu comme celui de dmoz ou l’annuaire Google.

Voila (France Télécom devrais-je dire) a maintenant décidé de ne plus maintenir ce guide et il semble bien qu’il soit supprimé.

Quelle en est la raison ?

- Pourquoi arrêtez-vous le Guide du Web ?
Parce que la recherche par mot-clé est largement préférée par les internautes.

Bon, je veux bien, mais la raison véritable n’est-elle pas:

Parce que le guide Web oblige France Télécom a employer des gens pour cela, et le plus malheureux est qu’il faut les payer

Il est vrai que les annuaires n’ont plus la côte et que les internautes préfèrent de loin la recherche par mots-clés.

Cela étant, le nombre de mots clés saisis est en constante diminution, le nombre de pages en croissance continuelle (et c’est particulièrement vrai pour les pages “de spam” ou sans contenu réel ou simplement pour les annuaires dont le seul but est de placer de la publicité sur leurs pages), et on nous explique que la pertinence ne fait qu’augmenter …

Cela me laisse perplexe.

Cette augmentation de la pertinence des moteurs de recherche n’est évidemment pas possible parce que sur 100 internautes qui vont saisir le même ensemble de, disons 3 mots clés, leurs attentes ne seront pas les mêmes et Google va évidemment renvoyer la même page de résultats.

Par conséquent, il ne me semble pas une bonne chose de voir disparaitre les annuaires sur le Web, du moins les bons.

Par exemple, l’annuaire dmoz conserve encore toute sa place, et il est plus simple de trouver des sites de qualité sur un sujet en utilisant l’annuaire dmoz qu’en interrogeant l’immense index de Google.

Libellés : , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

27 juin 2006

Google Sitemaps: les statistiques de votre site Web

L’outil de Google, Google Sitemaps, permet d’obtenir des statistiques concernant un site Web via les données de Google.

Le principe de Google Sitemaps consiste à créer un fichier XML décrivant les pages du site Web. Ce fichier contient également la date de dernière mise à jour du site Web ainsi que la périodicité des changements survenus sur les pages.

Le fichier XML doit se trouver à la racine du site Web et se nommer sitemap.xml et être mis à jour régulièrement.

Des formulaires existent sur le net pour générer un fichier sitemap.xml, je préfère personnellement le générer automatiquement via un script shell à chaque mise à jour de mon site.

Le programme Google Sitemaps était destiné initialement à faciliter le référencement d’un site Web. Ainsi, en théorie, c’est l’administrateur du site Web qui signale les changements auprès de Google, au lieu que ce soit googlebot qui s’en charge.

En pratique, googlebot utilise le fichier sitemap pour adapter sa fréquence de visite des pages du site. A la connexion à Google Sitemaps s’affiche la date de dernière indexation des pages par googlebot ; en général le robot de Google passe entre 2 et 5 fois par mois.

L’interface de Google Sitemaps qui change régulièrement comporte 3 onglets: Diagnostics, Statistics, et Sitemaps.

Diagnostic présente les informations générales d’indexation du site Web par Google ainsi que les erreurs éventuelles.

L’onglet Sitemaps permet de regrouper sur un seul compte Google Sitemaps les sitemaps de plusieurs sites Web.

Statistics est la partie la plus intéressante puisqu’elle permet de voir les requêtes les plus fréquentes sur Google ayant conduit à des résultats émanant des pages de votre site, ainsi que celles qui ont conduit à des clics. Cela permet de considérer les mots-clés pertinents qui conduisent vers le site, ou d’exclure ceux pour lesquels on ne désire pas obtenir de traffic.

La position des pages retournées (Average Top Position) dans les résultats de recherche de Google est aussi indiquée, ce qui est particulièrement intéressant pour savoir si l’on se situe dans la première page de recherche ou non !

Depuis peu, les requêtes les plus fréquentes présentées par Google Sitemaps peuvent être triées par localisation géographique.

Même si Google Sitemaps présente des statistiques bien moins détaillées que le programme Google Analytics (et au moins Sitemaps n’a pas besoin de Flash !), il a le mérite d’être simple et de présenter simplement les requêtes qui génèrent du traffic, tout en prévenant Google de l’ajout de nouvelles pages.

L’onglet Diagnostic de Google Sitemaps permet aussi de simuler le passage de googlebot (ou de l’un des autres robots de Google) sur une page donnée du site, en prenant en compte les exclusions du fichier robots.txt. Cela permet de vérifier que le fichier robots.txt est correct.

Libellés : , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

13 juin 2006

Google Earth sur Linux

La version bêta 4 de Google Earth existe désormais aussi sur Linux et en Français.

Google Earth 4.0 est proposée en cinq langues Européennes.

Cette nouvelle version de Google Earth bénéficie d’une résolution inégalée permettant d’apercevoir des piétons dans une rue.

Google Earth est une des applications les plus téléchargées sur Internet, avec 100 millions de téléchargement l’an dernier, assure t’on chez Google.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

07 avril 2006

Wikio: moteur de recherche d’actualités

Wikio, moteur de recherche de dépêches d’actualités est lancé en version béta.

Disponible à l’adresse suivante: http://beta.wikio.fr/ avec un accès par mot de passe (login : wikiobeta, mot de passe : lemediacvous), Wikio indexe en temps réel plusieurs dizaines de milliers de sources d’information, pour lesquelles les internautes donnent du crédit (ou non !).

On peut sélectionner les dépêches par thème, date ou selon leur pertinence, mais aussi ajouter des sources d’information et rechercher les articles selon des tags.

Probablement que, dans le monde Francophone, Wikio va faire du tords à Google qui, je trouve, faisait déjà moins bien que Yahoo sur le sujet.

Libellés : , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

15 mars 2006

Un futur concurrent pour Google ?

Le moteur de recherche Accoona, jusqu’à présent en version Béta, est maintenant lancé aux Etats-Unis.

Créée par un Français, cette société dont 10% des capitaux sont chinois entend bien concurrencer Google sur ce marché porteur puis dans le monde entier.

Utilisant les technologies d’intelligence artificielle qui s’attachent au sens des mots plutôt qu’aux seuls mots-clés, ce nouveau moteur de recherche déclare avoir une croissance de 10% … par mois de son activité !

Contrairement à Google qui rémunère l’affichage des publicités au clic, Accoona, qui s’appuie principalement sur une stratégie reposant sur le commerce en ligne, entend rémunéner uniquement les contacts effectifs suite aux clics.

Une petite révolution dans un monde où on est en droit de se demander quel est le retour sur investissement de la publicité sur Internet.

Accoona doit fournir un portail Européen d’ici l’été 2006.

Libellés : , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

04 mars 2006

Nouveau moteur de recherche en France

Le moteur Américain Ask arrive en France et compte bien compter parmi les moteurs majeurs.

Ce moteur racheté récemment par la société InterActiveCorp et issu de Ask Jeeves, positionné dans les 5 à 7 premiers moteurs de recherches dans le monde, est actuellement en version Béta en France.

Il propose notamment de mémoriser les recherches des internautes ainsi qu’un système de recherche de blog.

On peut aussi créer son propre blog sur Ask.com, comme le fait Google avec blogger.

Les pages d’aides de Ask.com sont bien faites, un peu à la manière de celles de Google, et détaillent comment fonctionne le moteur, ce qu’il supporte ou pas.

Un moteur à surveiller donc, et qui a annoncé une version définitive en France en 2006.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil