05 janvier 2008

Les moteurs de recherche qui scannent le Web

En regardant en détail les logs d'un site Web filtrés par le User-Agent, on découvre un certain nombre de bots ou crawlers pas forcément connus.

Certains sont japonais ou indiens, il n'est donc pas très utile d'être indexé par eux lorsque l'on édite un site en langue Française.

D'autre ne sont que des moteurs destinés à alimenter des annuaires que plus personne ne consulte aujourd'hui. Ils ne contribuent qu'à ajouter du spam sur Internet.

J'en ai recensé quelques uns, on pourra éventuellement interdire leurs adresses IP respectives dans le fichier .htaccess d'Apache, afin de limiter la bande passante utilisée par le serveur.

Moteurs Japonais:

Ichiro:

Adresse IP: 210.150.10.112
User-Agent: ichiro/2.0 (http://help.goo.ne.jp/door/crawler.html)
Hostname: crs023.goo.ne.jp

Steeler:

Adresse IP: 157.82.156.159
User-Agent: Steeler/3.3 (http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
Hostname: crawl159.tkl.iis.u-tokyo.ac.jp

Moteurs Indiens:

GurujiBot:

Adresse IP: 72.20.109.34
User-Agent: GurujiBot/1.0 (+http://www.guruji.com/en/WebmasterFAQ.html)
Hostname: guruji.com

J'ai également noté le passage d'un moteur nommé Omni-Crawler ou Omni-Explorer, qui a le défaut de passer souvent.

Ce moteur indexe les annonces d'achat/vente de voitures ou d'immobilier aux Etats Unis (vast.com), il est donc sans intérêt:

OmniExplorer:

Adresse IP: 72.44.50.39
User-Agent: OmniExplorer_Bot/6.10.7 (+http://www.omni-explorer.com) WorldIndexer
Hostname: ec2-72-44-50-39.z-1.compute-1.amazonaws.com

Le "moteur" GnoZtik semble être un moteur sans grand intérêt (c'est un annuaire de plus):

GnoZtiK:

Adresse IP: 219.117.195.201
User-Agent: GnoZtiK bot/1.0 (http://www.gnoztik.com
Hostname: 219.117.195.201.static.zoot.jp

ainsi que MJ12bot qui passe beaucoup trop souvent:

MJ12bot:

Adresse IP: 151.65.138.82
User-Agent: MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+)
Hostname: 151.65.138.82

Enfin, archive.org archive les pages trouvées sur Internet, ce que l'on ne souhaite pas forcément:

archive.org_bot:

Adresse IP: 208.70.26.113
User-Agent: Mozilla/5.0 (compatible; archive.org_bot/1.13.1x +http://crawler.archive.org)
Hostname: crawling13.us.archive.org

Libellés : , , , , , , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

25 octobre 2007

Gmail ajoute le protocole IMAP

Google va ajouter sur l'ensemble des comptes Gmail le protocole IMAP utilisable sur les clients lourds comme Thunderbird, Evolution ou Outlook.

Après l'augmentation de l'espace de stockage sur Gmail, c'est une initiative qui va ravir les utilisateurs de Gmail puisque le protocole POP3 de Gmail posait de nombreux problèmes depuis quelques temps.

Le protocole IMAP ne sera néanmoins pas disponible immédiatement sur tous les comptes Gmail ; le déploiement se fera progressivement.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

18 octobre 2007

Pas de R&D Google en France !

Google vient d'ouvrir un centre de Recherche et Développement au centre de Munich en Allemagne.

En Europe, Google compte déjà des sites de R&D dans les pays suivants: Suisse, Irlande, Danemark, Pologne, Grande-Bretagne, Suède, Norvège et Russie.

Aussi surprenant (ou pas ...) que cela puisse paraître, Google ne dispose toujours pas d'entités de R&D en France.

Alors ? La France n'attirerait donc pas les talents de R&D en informatique ???

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

08 septembre 2007

Entrées Sitemap et Crawl-delay dans le fichier robots.txt

Les Entrées 'Sitemap' et 'Crawl-delay' du fichier robots.txt permettent respectivement de spécifier auprès d'un moteur de recherche le fichier sitemap.xml du site et le délai minimal entre deux crawls successifs.

Je viens de me rendre compte que ces deux entrées dans robots.txt sont globales à tous les moteurs de recherche (entrée 'User-agent' de robots.txt).

En tous cas, c'est ce que me signale l'interface de Google Outils pour Webmasters.

Pour l'entrée 'Sitemap', cela parait logique, dans la mesure ou l'on ne va pas décliner des Sitemaps différents selon le moteur dont il s'agit.

Par contre, il est suprenant que l'entrée 'Crawl-delay' soit globale à tous les bots, parce que l'on peut vouloir limiter la fréquence de passage d'un moteur par rapport à un autre.

On pourra consulter le fichier robots.txt suivant pour en savoir plus.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

07 septembre 2007

Suppression d'URL du cache de Google

J'ai testé la suppression de contenu dans le cache de Google via l'interface de Google Sitemaps.

Dans l'onglet "Diagnostic", on choisit "Suppressions d'URL" puis "Nouvelle demande de suppression".

Google précise les règles à respecter pour pouvoir effectivement supprimer la page du cache (ou la page tout court si c'est ce que l'on veut):

  • Vérifiez que les demandes d'accès à la page renvoient le code d'état HTTP 404 ou 410
  • Bloquez la page à l'aide d'un fichier robots.txt
  • Bloquer la page à l'aide d'une balise META "noindex"

Il suffit qu'une condition soit respectée.

On choisit alors parmi:

  • URL individuelles : pages web, images ou autres fichiers Supprimer des pages Web, images et autres documents bloqués ou périmés des résultats de recherche Google
  • Un répertoire et tous les sous-répertoires de votre site Supprimer l'ensemble des fichiers et sous-répertoires d'un répertoire donné de votre site des résultats de recherche Google
  • Totalité de votre site Supprimer votre site des résultats de recherche Google
  • Copie en cache d'un résultat de recherche Google

Une fois sélectionné "Copie en cache d'un résultat de recherche Google", il suffit d'indiquer le chemin relatif du fichier en question.

Pour ma part, les URL ont été supprimées du cache en 4 jours ; au plus, je n'avais pas vérifié avant.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

Bug de l’opérateur blogurl de la recherche de blog de Google

L’opérateur blogurl de la recherche de blogs de Google semble avoir quelques soucis actuellement puisqu’il ne retourne que les nouveaux posts.

En effectuant une recherche pas mots clés, les anciens posts figurent bien dans la base mais avec l’URL simplement ou avec blogurl, rien …

Ce n’est pas la première fois que cela arrive, souvent la recherche de posts avec l’URL du blog ne donne pas tous les posts quand on sélectionne la période désirée.

C’est dommage parce que je pense que la recherche de blog de Google est plus simple à utiliser que de devoir se promener sur tous les technoratis du Web, mais bon !

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

02 août 2007

Gatineau: concurrent de Google Analytics ?

Microsoft annonçait récemment la disponibilité du produit Gatineau, concurrent de Google Analytics.

Gatineau est un produit de mesure d’audience de site Web comme Google Analytics, en version Microsoft.

On ne sait pas encore si Gatineau sera gratuit ou payant, mais d’ores et déjà le produit Gatineau de Microsoft permettra aux visiteurs de sites Web connectés sur leur compte Live Messenger de voir leur profil mémorisé par le site qu’ils visitent.

En clair, Gatineau devrait permettre de faire des statistiques sur l’age et le sexe des visiteurs …

Bien moyen tout ça.

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

21 juillet 2007

Recherche anonyme avec Ixquick

Le métamoteur de recherche Américain Ixquick permet de faire des recherches sur Internet tout en restant anonyme.

C'est précisé sur la page Ixquick protége votre Vie Privée.

Les logs de connexions sont supprimées au bout de 24 heures, alors que Google conserve les résultats de recherche pendant 18 mois ...

C'est un peu comme si Ixquick agissait en tant que proxy (comme le réseau Tor par exemple) puiqu'il effectue les recherches pour vous auprès de Google ou de Yahoo !, et que ces derniers ne voient que des requêtes provenant de Ixquick.

Récemment, le moteur de recherche ask.com a promis lui aussi la recherche anonyme sur Internet, mais cela ne sera opérationnel qu'en 2008.

Une initiative intéressante que celle d'Ixquick surtout pour les Français qui ont récemment élu Nicolas Sarkozy à la présidence de la république.

Libellés : , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

19 avril 2007

Google Sitemaps ajoute les suppressions d’URL

Google Webmaster Tools vient d’ajouter la possibilité de supprimer des URL depuis son interface, ce qui n’était possible auparavant que via une page spéciale sur le site de Google.

Pour supprimer une page de l’index de Google, trois possibilités:

* Vérifiez que les demandes d’accès à la page renvoient le code HTTP 404 ou 410.
* Bloquez la page à l’aide d’un fichier robots.txt.
* Bloquez la page à l’aide d’une balise META “noindex”

Libellés : , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

26 février 2007

Référencer un site sur voila (France Telecom)

Il ne semble plus possible de référencer un site sur voila, le moteur de recherche de France Télécom.

En utilisant le site Soumission Manuelle, on peut lire la chose suivante (assez hallucinante je trouve) concernant le moteur de recherche Voila de France Telecom :
L'offre de Soumission Express offre une garantie d'évaluation de votre site sous 7 jours ouvrés, contre le paiement en ligne d'une somme de 199 Euros HT soit 238 Euros TTC (1561,18 FF TTC).

Oups ! France Telecom est aussi cher que Microsoft avec Windows Vista ... Remarquez tout de même l'honnêteté qui consiste à afficher aussi le prix TTC !

Mais bien sur:
Nos équipes s'engagent à vous informer personnellement sur le traitement de votre soumission. Si vous souhaitez soumettre plusieurs sites et bénéficier de réductions jusqu'à 25 %, consultez nos offres de Soumission Express Forfait et Sur Mesure.

A ce prix là, je pense bien !!!!

Moi qui pensait que France Telecom faisait son beurre uniquement sur le téléphone, non, apparemment ce n'est pas le cas.

En cherchant sur les pages de voila, on peut en savoir plus:
Attention : nous vous informons que les services Url Express et Guide Express ne sont plus disponibles depuis le 11 janvier 2007.

Moralité, plus de nouvelles URL sur voila. Pas si grave cela dit, mais il faudra encore compter sur 2 ou 3 moteurs de recherche, pas plus, et c'est dommage.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

07 février 2007

Nouvelle version de blogger

La nouvelle version de blogger est plus simple à utiliser que la précédente mais ...

  • Le lien vers la page d'accueil du blog ne figure pas sur les pages d'archives
  • Le blog ne semble pas être republié en entier lorsque l'on modifie le template
  • Les annonces Google Adsense ne s'intègrent bien dans la mise en page que pour certains formats
  • Les libellés doivent manifestement être ajoutés manuellement pour les anciens posts: un petit calcul de densité de mots clés aurait été le bienvenu !
  • blogger est toujours aussi lent, mais ça c'est la rançon du succès sans doutes ...

Une bonne chose, l'option de vérification des mots peut être désactivée, ce qui est très appréciable.

Par ailleurs, il faut se méfier de Firefox qui semble mettre en cache le javascript, puisqu'après une modification du template, on voit deux annonces Adsense alors qu'une seule figure dans le template !

A voir donc.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

06 janvier 2007

Pharos: Encore un projet de moteur de recherche Européen ...

Alors que l'on a appris récemment le retrait de l'Allemagne du moteur Européen Quaero, la commission Européenne vient d'allouer une enveloppe de 8 millions d'Euros au projet Pharos.

On attend toujours un moteur de recherche important en Europe, et actuellement on peut dire que les projets sont légion: Quaero puis Theseus et maintenant Pharos !

Pharos est piloté par le Norvégien Fast et a pour objectifs d'indexer les contenus audiovisuels d'Internet.

13 partenaires participent au projet qui inclue pas moins de 9 pays dont la France et l'Allemagne.

Le projet de moteur de recherche Pharos d'indexation de la vidéo est complémentaire du projet Theseus qui se concentre d'avantage sur la recherche sémantique.

On espère évidemment que Pharos ne subira pas le même sort que Quaero, qui suscite bien des interrogations actuellement, mais on peut déjà dire que 8 millions d'Euros ne constitue pas une allocation considérable pour démarrer un moteur de recherche.

Libellés : , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

01 décembre 2006

News sur Yahoo: les limites du tri par mots clés

Le tri des news sur les grands portails comme Yahoo ou Google est fait automatiquement par un programme informatique, qui selon la présence de certains mots clés classe une nouvelle dans telle ou telle catégorie.

Ce système fonctionne généralement très bien, mais il n'est pas rare de voir une nouvelle classée dans la mauvaise catégorie.

Par exemple aujourd'hui sur Yahoo, dans la catégorie "Sécurité Informatique", on peut voir le titre suivant: "Chirac en appelle à la mobilisation dans la lutte contre le sida" !

Le mot clé incriminé est évidemment "contamination" ou "contaminées".

Ce type d'erreur souligne l'absence complète de compréhension, même partielle, des informations recensées, triées et classées par les moteurs de recherche comme Google, et la difficulté à le faire.

Probablement que le premier moteur de recherche qui arrivera à comprendre quelque peu les informations qu'il recense dans son index en tirera un profit important !

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

17 novembre 2006

Google Sitemaps becomes the standard

Microsoft and Yahoo will adopt the Google Sitemaps protocol in the future for real time Web Sites indexing.

For instance, only Google was using an XML protocol to submit Web Site changes to a search engine. Yahoo used a plain text sitemap protocol, i.e. a simple text file containing the Web Site URL list.

Now, both Microsoft and Yahoo will use the Google Sitemap protocol for their search engines Windows Live and Yahoo.

The adoption of the Google Sitemaps protocol by Yahoo and Microsoft makes easy for webmasters to communicate to all major search engines on the Web using the same data format.

A new web site dedicated to the Sitemaps protocol has been launched.

Libellés : , , , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

24 septembre 2006

La Libre Belgique et Le Soir ne sont plus dans l'index de Google

Google a été condamné récemment par le tribunal de première instance de Bruxelles à retirer de www.google.be les articles des pays adhérents à Copiepresse.

Cela suppose en particulier de ne plus faire apparaitre les articles émanants des journaux adhérents à Copiepresse dans les News Google en Belgique.

De plus, Google devait publier sur sa page d'accueil le texte du jugement, ce qu'il a fini par faire, bien qu'ayant refusé au départ.

Les pages émanant des journaux Belges ont donc disparu du cache de Google.

Mais il semble que Google soit allé plus loin puisque des journaux Le Soir, la Libre Belgique ou La Dernière Heure, aucun ne semble encore figurer dans l'index de Google (www.google.be) !

En revanche, sur les autres sites de Google, les journaux Belges sont encore indexés.

Tout semble laisser penser que c'est un pied de nez de Google à ces journaux qui l'ont attaqué ...

Cette affaire peut faire beaucoup de tord aux journaux Belges compte tenu de la prédominance actuelle de Google sur le marché des moteurs de recherche.

Libellés : , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

14 septembre 2006

Nouveau moteur de recherche d'actualités chez Google

Google a lancé archivesearch, nouveau moteur de recherche d'actualités, qui effectue ses recherches dans les articles de presse et les archives historiques.

archivesearch permet, contrairement au moteur google, de ne rechercher que dans les sources issues de la presse, et de trier les résultats de manière chronologique.

C'est très commode pour chercher des informations sur une période passée non vécue. Par ailleurs, le fait de ne pas utiliser tout l'index de Google renvoie beaucoup moins de résultats et ceux-cis sont plus pertinents.

Par exemple, pour voir tous les articles de presse concernant les Rolling Stones, ce qui permet de remonter jusqu'en ... 1890 !

On peut ainsi savoir ce que disait la presse sur les premières tournées des Rolling Stones aux Etats Unis au milieu des années 60.

Les résultats d'archivesearch incluent des articles gratuits mais aussi des articles payants, et probablement que google mise beaucoup sur cette nouvelle source de revenus.

Lorsque les recherches renvoient des articles Américains, ceux estampillés de la mention "Subscription" sont des résumés ; la version complète de l'article n'étant accessible que si l'on s'enregistre sur le site en question.

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

13 septembre 2006

Windows Live: nouveau moteur de Microsoft

Windows Live, la nouvelle interface du moteur de recherche de Microsoft est en ligne.

Première constatation, le design est beaucoup plus épuré que celui de l'ancien moteur MSN Search ! Le site de Windows Live est plus dépouillé encore que celui de la page d'accueil de Google !

Ensuite, les recherches sont beaucoup plus rapides.

Windows Live intègre naturellement les recherches classiques sur le Web, dans les news et les images.

Quand je demande de l'aide, une page blanche intitulée "Aide de Windows Live" s'affiche avec pour tout message: "Un problème est survenu. Veuillez recommencer.". Pourtant, j'utilise Firefox 1.5.0.6. Certes, je suis sous Linux, mais avec Debian (s'il vous plait !)

Avec Opera 9.0, je règle les options pour avoir des pages en Français, mais la recherche suivante ne me renvoie que des pages au contenu Anglais ...

Globalement, la première impression avec Windows Live est plutôt bonne. Bien sur, l'index de Windows Live est beaucoup plus restreint que celui de Google, mais l'outil est largement plus utilisable que ne l'était MSN Search avec ses publicités, Top Stories ... à tout bout de champs, à la limite (franchie !) de l'insupportable.

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

02 septembre 2006

Le spam d'index dans Google et Yahoo

J'ai effectué récemment une recherche sur le moteur de recherche Yahoo ! en Anglais sur un mot clé qui ramène beaucoup de pages.

Comme beaucoup d'internautes, j'essaie les premiers résultats, et je me rends compte que ces derniers renvoient sur trois domaines différents qui pointent sur des sites identiques.

Quels points communs entre ces sites qui sont en fait les mêmes ?

Déjà, les mots clés en question sont répétés à l'envie, dans les balises méta, dans le titre et aussi dans le texte.

Ensuite, les pages ne comportent que très peu de mots, et ce afin d'obtenir une densité de mots clés importante.

Si l'on "visite" le site en question, on s'aperçoit rapidement que le contenu est quasi inexistant.

Ayant récupéré les pages d'accueil des trois domaines hébergeant le même site avec wget, un diff Unix fait apparaitre que les seules différences portent sur l'URL du site dupliqué !

Des sites de ce genre sont des spams réels d'index pour les moteurs de recherche et sont nuisibles à l'internaute, qui jusque là, n'a pas trouvé l'information qu'il cherchait.

On aimerait vraiment voir disparaitre ce genre de sites de l'index de Google ou de Yahoo !

Lorsque l'on rencontre un cas de spam d'index sur un moteur de recherche donné, on peut le signaler au dit moteur via les liens suivants:

Signaler un spam dans l'index de Google

Signaler un spam d'index dans le moteur de recherche Yahoo !

Libellés : , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

18 juillet 2006

Accoona: SuperTarget Your Search

Le moteur de recherche Accoona qui a été lancé récemment en Europe, et qui fonctionne en 7 langues dispose d'une fonctionnalité intéressante pour un moteur de recherche, celle de pouvoir affiner une recherche sur le Web, et ce de manière incrémentale.

Ainsi, sur une requête comme "développement logiciel en langage C", Acoona propose d'insister dans la recherche sur les termes: développement, logiciel, langage.

Malheureusement, cette fonctionnalité ne tient pas compte des groupes de mots comptant comme un mot clé et se contente de découper les mots clés un à un en supprimant les mots de liaison.

Il est aussi possible avec Accona de sélectionner selon les "Publishers", c'est à dire la source d'information ou site Web qui contient des pages en rapport avec les mots clés entrés.

De la même façon, Accoona propose après coup de choisir la langue des documents renvoyés par le moteur de recherche ainsi que la localisation géographique.

La recherche incrémentale peut aussi être affinée selon les personnes concernées par les pages (People Search).

Par exemple, avec une recherche comme "linux debian", Accoona trouvera: Linus Torvalds et Richard Stallman.

Cette fonctionnalité ne semble néanmoins pas très pertinente quand elle me donne: Steve Ballmer ou Bill Gates et surtout Harry Potter ou Madonna !

Le moteur de recherche Accoona est disponible en Europe à l'adresse www.accoona.eu

Libellés : , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

14 juillet 2006

Google défend le standard Open Document Format

Google vient d'annoncer son adhésion au standard Open Document Format.

Le format OpenDocument normalisé par OASIS (Organization for the Advancement of Structured Information Standards), est le format natif d'OpenOffice.org 2.0.

Les membres de l'ODF incluent IBM, Sun Microsystems et Red Hat.

Alors que Microsoft s'accroche à son format OpenXML, la firme de Redmond vient d'annoncer la disponiblité d'un outil de conversion vers le format OpenDocument.

A l'heure où les pouvoirs publics Belges réfléchissent à l'utilisation de l'OpenDocument pour l'échange de documents bureautiques et où le Danemark compte l'utiliser à partir de 2008, on ne sera pas surpris de la décision de Microsoft !

Libellés : , , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil