Rappel sur le fonctionnement des moteurs

Définition

Typologie

Principe généraux


Définition

Termes utilisés le plus fréquemment : Moteurs, robots de recherche, spiders, search engines...

Instrument automatisé de recherche d'information, fondé sur un recensement des sites , sur la mémorisation partielle ou intégrale de leur contenu et la construction d'un index, enfin sur l'élaboration de procédures d'accès à l'information par le biais d'une interface de recherche par mots clés (simple / avancée).

Permet de récupérer du texte, des images, du son...

 haut de page


Typologie

* Typologie selon le référentiel internet :

Moteurs généralistes (Yahoo Search, Google, Exalead, Teoma...) / Moteurs spécialisés :

- spécialisation par type de service internet (ex : recherche sur les news, les listes de diffusion)
- spécialisation par type de document ou d'objet internet (ex : recherche d'images)
- spécialisation par domaines linguistiques (ex : moteurs francophones)
- spécialisation par domaines géographiques
- spécialisation par thématiques, par champs disciplinaires (ex : Scirus pour les sciences, In Extenso pour les Sciences Humaines et Sociales, Légicité pour le droit, Medhunt pour la médecine...)
- spécialisation sur le web invisible

* Typologie selon le type de traitement des requêtes

- Procédures classiques de recherche booléenne
- Introduction de traitements linguistiques et statistiques

* Typologie selon les services rendus à l'utilisateur

- Recherche d'information
- Filtrage de l'information
- Veille
- Personnalisation

* Typologie selon la présentation des résultats de requête

- Présentation des résultats sous forme d'une liste simple
- Présentation des résultats sous forme d'une liste de résultats avec possibilité d'affiner la requête (mots clés connexes, liens de communautés d'experts...)
- Présentation des résultats sous forme graphique (cf. vignettes Exalead...)

 haut de page


Principe généraux

A la base, exécution de tâches effectuées par 3 modules automatiques :

- exploration de sites et collecte de l'information
- indexation
- recherche

MODULE DE COLLECTE (spider, crawler, worm)

Procède à une exploration à fréquence régulière des serveurs web ou autres.

A partir d'un ensemble donné de pages initiales, le robot explore les réseaux de liens du web et parcourt les différentes ressources de l'Internet (sites web, forums, etc.), constituant le "web visible" (accessible par ces robots de collecte).

Exploration variable selon les moteurs.

Peuvent être utilisés par plusieurs moteurs

MODULE D'INDEXATION

Le module indexeur construit un index général de recherche des données = indexation du code source html de la page web; l'indexation peut être faite par rapport à des champs spécifiques (titre, url, métadonnées...)

L'index d'un moteur constitue sa base de données ; il est constitué :
- d'un index principal, contenant les millions (voire les milliards) de Pages web et de documents capturés par le robot collecteur
- de fichiers inverses, contenant tous les termes d'accès, renvoyant aux pages web.

Variations de l'indexation selon les moteurs et les règles suivies .
Evolution : des index de plus en plus grands, prenant en compte de plus en plus de formats de fichiers et de types de documents.

Tout le web n'est pas indexé = web invisible. Mais recul du web invisible et innovations permanentes des moteurs (recherche sur les actualités, sur la littérature grise...)

MODULE DE RECHERCHE

Interface (type formulaire) de requête par mots clés avec équation booléenne et syntaxe d'interrogation : appariement entre entre la requête posée et les éléments contenus dans l base d'index.

Plusieurs niveaux de requête : simple/avancée, pages web/autres ressources.
Fonctionnalités diverses selon les moteurs ; évolution vers les procédures d'affinement de la requête et vers des services personnalisés.

 haut de page