Rappel de la définition, du fonctionnement et de la typologie des moteurs de recherche

Comment définir un moteur de recherche

Fonctionnement

Typologies

La lutte contre le "spamming"


Comment définir un moteur de recherche

Instrument de recherche basé sur un recensement de ressources internet, dont tout ou partie est mémorisé sous forme d'index interrogeables par des formulaires de requête.

Un moteur ou robot de recherche peut être considéré comme une gigantesque base de données, constituée automatiquement grâce à des outils logiciels qui vont explorer régulièrement les serveurs déclarés sur internet, indexent le texte intégral des pages et des sites et proposent à l'utilisateur un accès aux documents en lançant une requête par mots clés.

= Classement, organisation et structuration de pages de l'internet

haut de page


Fonctionnement

Un moteur de recherche fonctionne généralement avec 3 modules :

  • Le module de collecte automatique des données = robot collecteur
  • le module d'indexation automatisée des données = moteur d'indexation
  • le module de gestion des requête et de présentation des résultats = moteur de recherche proprement dit

Il existe des différences entre les moteurs de recherche : les robots sont programmés en fonction de choix effectués par leurs concepteurs et n'opèrent pas tous de la même manière.

haut de page


Typologies

Plusieurs typologies sont possibles, par exemple :

⇒ Typologie selon le référentiel Internet et le type de ressources recensées :

  • Moteurs de recherche généralistes
  • Moteurs de recherche spécialisés disciplinaires
  • Moteurs de recherche spécialisés par type de service internet
  • Moteurs de recherche à spécialisation géographique ou linguistique
  • Moteurs de recherche spécialisés par type d'objet internet : images, son, séquences vidéo...
  • Moteur de recherche spécialisés par type de données : revues, prépublications, dépêches d'actualité, blogs ...
  • Moteurs de recherche spécialisés sur le web invisible

⇒ Typologie selon les méthodes de classement des résutats (cf plus loin) :

  • Classement selon l'indice de pertinence : la majorité des moteurs
  • Classement selon l'indice de popularité : Google, Teoma...

⇒ Typologie selon le type de présentation des résutats :

  • Présentation des résultats sous forme d'une liste simple
  • Présentation des résultats sous forme d'une liste de résultats avec possibilité d'affiner la requête (mots clés connexes, liens de communautés d'experts...)
  • Présentation des résultats sous forme de cartographie (encore très rare sur les moteurs)

⇒ Typologie selon le type de traitement :

  • fonctionnalités exclusives de recherche
  • traitement, gestion et exploitation des résultats.

 haut de page


L'un des défis des moteurs de recherche : la lutte contre le "spamming" ou "spamdexing"

L'un des premiers problèmes posés aux moteurs de recherche, surtout à partir de 1998-99, a été la lutte contre le "spamdexing".

origine du terme : le mot anglais spam vient d’un épisode de la série télévisée Monty Python’s Flying Circus, où le mot Spam, une marque de jambonneau, était répété pour couvrir les dialogues … !

  • spamdexing : opération consistant à détourner les techniques de référencement des sites pour hisser artificiellement les pages de son site dans les premiers résultats, et donc apparaître plus souvent et attirer plus de visites. Pour détourner l'indice de popularité, le spam consiste à créer de multiples fausses pages, qui pointent vers une page pour optimiser son classement.

Il s'agit d'une véritable " guerre " des fournisseurs d’information grand public, menée contre les moteurs de recherche, pour pouvoir être systématiquement présents dans les résultats.

Le spamming est un véritable fléau pour les moteurs de recherche : il y a quelques années, on estimait que sur 10 pages proposées à Alta Vista, 9 étaient du spam... On a estimé aussi que sur l’index d’Alta Vista, évalué alors à 1 milliard de pages, l’index ne comprenait en fait que 350 millions de pages : 650 millions étaient du spam, ou des doublons, enlevées par le moteur....

  • Les techniques du spamdexing :
    elles sont très variées et sans cesse perfectionnées par les webmasters peu scrupuleux, qui détournent également les outils de recherche, spécialisés dans la vente de liens commerciaux, comme Espotting, Overture et Google

o       multiplication de mots-clés dans les métadonnées : cette première technique de spamdexing est maintenant assez bien contrée par les moteurs (qui n'indexent pas ou pas toutes les métadonnées)

o       multiplication de "sites-miroirs", de pages web d'une même organisation pointant vers l'une vers l'autre (pour détourner l'indice de popularité)

o       multiplication et détournement des liens commerciaux (cf la partie du support "Acteurs, marché..."

o       faux portails, contenant en fait des liens commerciaux

    • Google, qui a été créé sur des principes novateurs dans la lutte contre le spam (avec le fameux PageRank) est aujourd'hui particulièrement visé par le spamdexing : l'indice de popularité est désormais contourné par de nombreux sites commerciaux, notamment par l'utilisation abusive des liens commerciaux. "Industrie des clics frauduleux".

Sur ces questions, voir Marc Duval, Google-Filter contre le spam, Chronique de la recherche, vol. 3, n° 9, 21 novembre 2003, disponible sur <http://www.dsi-info.ca/chroniques/chroniques-recherche-web.html>

haut de page