Recherche d'information sur Internet : approfondissement des moteurs de recherche

 

Ce support de cours a été élaboré par Marie-Laure Malingre et Alexandre Serres,
co-responsables de l'URFIST Bretagne-Pays de la Loire.
Ce stage vise à approfondir la connaissance théorique et pratique des moteurs de recherche sur Internet.


1. Rappels sur la définition, la typologie et le fonctionnement des moteurs de recherche

2. Comment comparer les moteurs de recherche ?

Présentation de 7 moteurs de recherche : généralistes, spécialisés, anciens, récents, aux fonctions "classiques" ou innovantes...
Présentation d'une grille d'analyse et d'évaluation

3. Les types de ressources proposées

4. Les fonctions avancées de recherche :

Bref rappel sur quelques principes de la recherche simple
Les fonctionnalités avancées : recherche par champs, possibilités d'équations, affinage des questions, etc.
TP de comparaison sur 6 moteurs

5 . La gestion des résultats :

Rappel des principes et des évolutions techniques de la gestion des résultats de recherche
TP de comparaison des différentes méthodes de classement et de présentation des résultats

6 . Les interfaces, les dispositifs d'aide :

Comparaison des interfaces de quelques moteurs de recherche

7 . Les services proposés :

Panorama des nouveaux services proposés par les moteurs de recherche

Type de formation: 
Stages
Auteur(s): 
Marie-Laure Malingre
Alexandre Serres
Thème: 
Recherche d'information
Public: 
Tous publics Urfist
Date de création: 
15/02/2003
Date de modification: 
30/04/2007
Tags: 
License: 

Bilan de la comparaison : 2007

Fichiers attachésTaille
PDF icon Bilan-ComparaisonMoteurs2007.pdf0 octet

Critère de comparaison

Evaluation des outils et notion de pertinence

Critères de comparaison : proposition de grille de comparaison


Evaluation des outils et notion de pertinence

Pertinence : "Degré de corrélation entre une question et la réponse apportée, la pertinence est un concept-clé de la recherche d'information depuis les années 50" (Sylvie Dalbin).
En général, la notion de pertinence vise le document et son adéquation à une requête :

- généralement définie par le croisement de deux notions transversales de la recherche d'information et de la RDI : le bruit et le silence documentaires :

bruit : documents retrouvés non pertinents

silence : documents pertinents non retrouvés

- l'élimination ou la réduction de ces deux indices définit la pertinence (relevance) d'un système documentaire

Mais, comme l'indique Sylvie Dalbin, on peut distinguer  schématiquement trois grandes catégories de pertinences :

La pertinence-système :

- concerne la capacité du système documentaire (logiciel, base de données...)
> vise surtout la pertinence de la représentation du document (son indexation...) et, en conséquence, la pertinence de la recherche d'information elle-même.
>> la pertinence-système concerne les outils de recherche eux-mêmes.

Deux types de pertinences-système :

pertinence des mesures de classement :
Mesure la capacité d'un système documentaire à retrouver un document en réponse à une requête ; s'appuie sur les notions de rappel et de précision.
Mais difficulté propre à la nature du web : le taux de rappel, qui mesure le silence (proportion de documents pertinents récupérés sur l'ensemble des documents pertinents) est impossible à mesurer sur le web, où, par définition, "le silence n'existe pas".
> il existe toujours des documents pertinents quelque part..., impossibles ou difficiles à retrouver pour un outil de recherche. 

pertinence de l'indexation automatique :

Mesure la capacité du système à indexer automatiquement les documents, i.e. à représenter le plus fidèlement possible leur contenu.
> renvoie aux techniques d'indexation utilisées ;
La pertinence de l'indexation automatique a fait l'objet de nombreux travaux de recherche (notamment dans le cadre du programme TREC (Text Retrieval Conference) : évaluation collective, par des équipes de chercheurs, des performances de systèmes documentaires. Mais ce type de pertinence s'applique surtout aux systèmes documentaires fonctionnant "en local", sur des corpus ou des bases de données fermés, délimités.

la pertinence de l'indexation automatique appliquée aux moteurs de recherche :

- quelles techniques d'indexation et de classement des documents ?
- notions de "contrôle de pertinence", de "rétroaction de pertinence", ou relevance feedback
- pertinence assez difficile à évaluer : méthodes d'indexation utilisées par les moteurs de recherche assez opaques, pas forcément explicitées.
- plusieurs éléments à prendre en compte : "poids" attribué à un mot (pondération), "indice de popularité" sur Google, etc.

la pertinence-utilisateur :

- pertinence vue sous l'angle de l'utilisateur
- concerne la tâche elle-même de recherche, le besoin d'information, la formulation de la requête, etc.

- Plusieurs types de pertinences-utilisateur :

la pertinence de la formulation de la requête :

comment l'utilisateur traduit sa question en une requête d'interrogation, comment le système facilite ou non la formulation des requêtes, etc.
> renvoie à l'évaluation des outils (des interfaces de recherche...)

la pertinence de la présentation des résultats :

- par exemple, quelle pertinence des représentations cartographiques dans certains outils (Kartoo...)
- pertinence encore mal mesurée
> concerne exclusivement les outils de recherche

la pertinence du document par rapport au besoin :

- la plus importante du point de vue de l'utilisateur :
un document pertinent par rapport à sa représentation dans le système (bien indexé), pertinent par rapport à la requête, ou au thème, n'est pas forcément pertinent par rapport au besoin d'information de l'utilisateur.
- pertinence la plus difficile à mesurer : à apprécier par l'utilisateur lui-même
- ne peut faire l'objet d'une évaluation "objective" et critériée
> ne peut pas concerner les outils de recherche

la pertinence-thème:

- concerne la pertinence de la valeur d'un document ou d'une information, par rapport au thème traité
> pertinence du contenu
- type principal de pertinence visée dans les problématiques d'évaluation de l'information sur Internet.
> ne concerne pas les outils.
> voir le Support de stage sur "Evaluation de l'information sur Internet"

Au final, trois types de pertinences sont concernées par l'évaluation des moteurs de recherche sur Internet :

dans la pertinence-système :

1/ la pertinence de l'indexation automatique :
concerne les modules d'indexation des moteurs, leurs méthodes d'indexation, les procédés de classement des résultats : relevance ranking, indice de pertinence, ou de popularité...

dans la pertinence-utilisateur :

2/ la pertinence de la formulation de la requête :
Concerne les fonctionnalités de recherche, l'aide en ligne, les possibilités d'affinage, de reformulation, les interfaces...

3/ la pertinence de la présentation des résultats :
Concerne la description des résultats, la présentation graphique, l'adaptation des procédés de présentation à l'évaluation de la recherche et la sélection de l'information, etc.

haut de page


Critères de comparaison : proposition de grille de comparaison

Le travail mené à l'URFIST de Rennes consiste en une comparaison de sept moteurs de recherche, à partir de sept ensembles d'éléments distincts, correspondant aux différents composants visibles des moteurs de recherche ; la grille a été élaborée à partir d'une description fine des caractéristiques de chaque moteur.

Les six outils retenus :

- 3 moteurs généralistes

Google France (http://www.google.fr/)

Yahoo Search Technology France (http://fr.search.yahoo.com/)

Exalead (http://www.exalead.fr/search)

- 2 moteurs spécialisés (spécialisation sur la littérature scientifique et spécialisation disciplinaire)

Google Scholar (http://scholar.google.com/)

In-Extenso.org (http://www.in-extenso.org/)

- 2 moteurs de recherche de blogs

Google fr Blogsearch (http://www.google.fr/blogsearch)

Technorati (http://www.technorati.com/)

Remarques sur le panel :
Le panel a été remanié par rapport aux analyses précédentes : ont été gardés les deux grands moteurs généralistes leader, Google et Yahoo, dans leur interface française, ainsi que le moteur Exalead (retrait de MSN). Nous avons souhaité par ailleurs intégrer plus largement des moteurs spécialisés :

- reprise de Google Scholar, en raison de son rôle de plus en plus important dans la recherche de documents scientifiques;
- introduction de In-Extenso.org, le moteur de Revues.org, dédié aux Sciences Humaines et Sociales;
- orientation de l'analyse vers l'univers des blogs, avec 2 moteurs de recherche de blogs : le moteur de recherche de blogs de Google.fr et Technorati.

Nous avons resserré les critères et proposons une étude comparative des moteurs sur les éléments suivants :

1/ Les ressources proposées :

- quels types de ressources sont proposés par les moteurs ? quelle richesse, quelle diversité ?

2/ Les fonctions de recherche :

> quelles fonctionnalités de recherche offertes par les moteurs, en mode simple et avancé ?
> comment sont organisés les résultats, quel type de classement ?
> quelles modalités d'affinement de la requête ?
> quelles différences entre les moteurs ?

3/ La présentation des résultats :

> quel type de présentation des résultats proposé par les moteurs de recherche ?

4/ Les services proposés :

> quelles sont les différents services proposés par les moteurs ?
Remarque : auparavant intitulée "Fonctionnalités annexes", cette partie, rebaptisée "Services proposés", témoigne de la montée en puissance des différents et nombreux services proposés par les moteurs. Il devient difficile de parler de fonctionnalités "annexes" . 

⇒ Remarques générales sur les grilles proposées :
- elles constituent surtout un outil de description des moteurs
- elles peuvent constituer des éléments de comparaison des moteurs, à partir de leurs caractéristiques externes
- elles mettent en jeu et combinent plusieurs types de pertinences : pertinence-système et utilisateur
- pour une véritable évaluation des outils, d'autres grilles sur d'autres critères, comme ceux proposés par Marc Duval (Voir sur le site DSI, les fiches techniques des moteurs de recherche), sont nécessaires.

> Il ne s'agit  donc pas d'une véritable évaluation des outils, qui dépasse le cadre de ce stage et de ce support de cours, mais seulement d'une comparaison fine, permettant une meilleure maîtrise des moteurs.
Ce travail de comparaison, mené pour la cinquième année consécutive (voir les Archives), s'est appuyé en partie sur le travail proposé sur le site SearchEnginesMatrix.


La grille proposée par l'URFIST pour la description et la comparaison des moteurs se trouve ici :
TableauComparaisonMoteurs2007.doc

Vous trouverez également ici les Fiches de présentation élaborées par Jean-Pierre Lardy à l'URFIST de Lyon :
Google en profondeur (http://urfist.univ-lyon1.fr/google-en-profondeur.pdf)
Exalead en profondeur (http://urfist.univ-lyon1.fr/exalead-en-profondeur.pdf)
Google Scholar en profondeur (http://urfist.univ-lyon1.fr/GoogleScholar.pdf)

 haut de page

Fichiers attachésTaille
Microsoft Office document icon Bilan-ComparaisonMoteurs2007.doc0 octet

Gestion des résultats

Principes théoriques : rappels

Comparaison : Classement et traitement des résultats

Comparaison : Présentation des résultats

Exemples de requête pour la comparaison des pages de résultats


Principes théoriques : rappels

Principe :

*Les moteurs de recherche affichent des pages de résultats (évolution : listes / cartes) présentant des zones différenciées correspondant aux divers types d'information liés aux résultats des requêtes.

*Chaque résultat ou référence affiche une présentation normalisée comprenant différents éléments permettant de décrire la page web donnée en résultat. Ces éléments sont variables d'un moteur à l'autre et peuvent ou non être paramétrés.

*Les moteurs de recherche mettent en oeuvre des méthodes de tri automatique des résultats, qui sont différentes d'un outil à l'autre = notion de pertinence, de relevance ranking.

*L'objectif du classement étant d'afficher dans les 10 à 20 premières réponses les documents qui sont censés être les plus pertinents.

Méthodes de tri / 3 grandes méthodes :

- Le tri par pertinence (cf. wais) = calcul d'un score pour chaque réponse, en fonction de 5 grands critères :

1. la place du mot dans le document : le poids du mot est plus important s'il est situé dans le titre et le début du texte, ou si le mot est en majuscules.

2. la fréquence d'occurrence dans un document par rapport à la taille du document (pour un même nombre d'occurrences, le document le plus petit est privilégié).

3. le poids d'un mot dans l'ensemble de la base (mots peu fréquents favorisés, mots vides sous-évalués ou éliminés).

4. la correspondance d'expression : la similarité entre l'expression de la question et l'expression correspondante dans le document donne le poids le plus grand.

5. la proximité des termes de la requête entre eux dans le document : à une plus grande proximité correspond un poids plus important.

Repris par les moteurs de recherche à partir de 1994.
Méthode utilisée par Altavista, Ecila, Fast, Hotbot, inktomi, Lokace, Voila...

Les balises méta, peu utilisées, sont encore, malgré leur enjeu, peu prises en compte dans le calcul des scores.

Problèmes liés à cette technique : spamming (répétition des mots importants dans l'en-tête ou dans le texte, en blanc sur fond blanc) pour influer sur le classement. D'où : élimination de ces pages par les moteurs.

- Le tri par popularité : méthodes indépendantes du contenu du document.

1. la méthode basée sur la co-citation

cf. Google : classe les pages grâce à une combinaison de plusieurs facteurs, notamment celui nommé PageRank = utilise le nombre de liens pointant sur les pages + l'importance des sites pointant vers les résultats de recherche.

Mais nouvelles pratiques de spamming : établissement de liens artificiels contre paiement + autre inconvénient : les pages récentes, donc encore inconnues ou bien les pages très spécialisées sont pénalisées.

2. la méthode basée sur la mesure d'audience

cf. DirectHit (depuis 1998) : tri des pages en fonction du nombre de visites qu'elles reçoivent. Analyse du comportement de l'internaute.
(fonctionne sur le site de directHit, mais travaille aussi avec de nombreux moteurs de recherche comme Hotbot ouLookSmart).
Evite le spamming mais pénalise les pages récentes.

- Le tri par calcul dynamique de catégories : sur la base des méthodes de clustering ou d'agrégation (cf. bibliométrie, années 80) de catégories prédéfinies et repérées automatiquement.

La tendance actuelle est de mixer les différentes approches.

Modes de représentation des résultats :

sous forme de liste de résultats (moteurs classiques)

de manière mixte, avec des listes de resultats et une représentation graphique ou une organisation par dossiers critériés

sous forme de cartes (métamoteurs innovants comme Kartoo et Mapstan)

 haut de page


Comparaison : Classement et traitement des résultats

⇒ Explicitation des critères :

- Classement des résultats

Tri des résultats
> Possibilité de choisir entre classement des réponses par pertinence (décroissante), par taille, URL, date...

Affichage de la pondération
> Calcul d'un score de pertinence (par ordre décroissant) des pages web données en réponses.
> Option de pondération manuelle par fenêtre de saisie complémentaire.

Distinction claire entre les résultats automatiques et les résultats issus de liens sponsorisés.
Lorsqu'il y a des liens commerciaux, comment s'affichent-ils par rapport aux liens générés automatiquement (séparation marquée) ?

- Affinement de la requête

Affinement de la requête dans le lot de résultats
> Possibilité à partir de la liste de résultats obtenus, d'affiner la recherche en rajoutant des mots clés ("recherche dans les résultats").

Voir les résultats d'un site
> Limitation a posteriori pour un thème de requête, aux résutats d'un site en particulier. Voir toules réponses pour ce site ou quelques unes ou une seule (possiblités de paramétrage)

Propositions de pages similaires à partir de la liste de résultats
> Récupération à partir de la liste de résultats affichée, de documents web liés à la page en question.
> Algorithme analysant les réponses retrouvées et les adresses des sites, et proposant des sites partageant la même thématique, le même profil, des contenus analogues.

Classification a priori
> Liens sur les catégories d'un guide ou d'un annuaire utilisé conjointement au moteur.
> Possibilité de reformuler la requête par le biais des catégories.

Proposition de mots-clés, de termes associés
> Suggestion de termes de requêtes voisins, liés, plus larges, plus spécifiques, à partir desquels relancer la requête.

Clusterisation / Liste de mots clés
> Lorsque la requête est traitée, des calculs statistiques sont effectués pour déterminer une série de mots clés en lien direct avec le ou les termes de la recherche.
> Permet de reformuler et de cibler la requête en utilisant ces mots clés en complément de la requête initiale (cf. Exalead).

Affinement selon la localisation des sites
> A partir de la liste de résultats, possibilité de limiter la requête pour retrouver des sites d'un continent, d'un pays, d'une région, d'un département, voire d'une ville en particulier.

Affinement selon le format des documents
> A partir de la liste des résultats, possibilité de limiter la requête pour retrouver des documents correspondant au sujet, mais dans une format spécifique.

 haut de page


Comparaison : Présentation des résultats

⇒ Explicitation des critères :

- Aspects de la page de résultats

Affichage clair de la liste de résultats
> présentation sous forme de liste
> bonne répartition entre les différentes zones de la page de résultats (fenêtre de requête, barre d'état, références...)
> bonne lecture des références : termes de la recherche mis en valeur dans le texte de la référence (en gras), aspects graphiques...

Diversité de la présentation des résultats
> possibilité de présentation des résultats sous différentes formes : liste, carte/graphe, arborescence ...

Aperçu graphique des documents trouvés
> possibilité d'afficher pour chaque résultat un aperçu du site correspondant

- Paramétrage pour l'affichage des résultats

Choix du nombre de références par page
> Possibilité de paramétrer le nombre de résultats à afficher sur une page : soit par l'intermédiaire d'une page de préférences proposant différents paramétrages, soit par l'intermédiaires d'un menu déroulant sur l'interface de recherche elle-même (options 10 - 15 - 20 - 25 - 30 - 50 - 100... résultats par pages, variables selon les moteurs).

Ouverture des résultats dans une nouvelle fenêtre
> Option pour l'affichage de la liste des résultats dans une fenêtre indépendante qui se superpose à la précédente (meilleure visibilité et facilités d'exploitation des résultats).

Possibilité d'affichage d'une page par site
> possibilité ou non de regrouper les résultats par site = une page représentant un site, plutôt que d'afficher les différente spages d'un même site; permet d'avoir une vision plus rapide de l'ensemble des sites répondant à la question.
> Dans certains cas, affichage de l'ensemble des pages, mais pour les pages secondaires d'un même site, retrait dans la page de résultats sous la page principale d'un site.

Configuration du format d'affichage
> Possibilité ou non de choisir l'affichage d'une référence détaillée ou réduite en indiquant les éléments que l'on veut voir figurer dans les références de la liste de résultats : seulement titre, URL, etc. ou informations complémentaires comme taille du fichier, date... (ex : format réduit pour une évaluation rapide de la pertinence à partir des titres, ou version détaillée des résultats).

Lien direct au(x) résultat(s) le(s) plus pertinent(s)
> Possibilité de privilégier dans l'affichage les résultats considérés comme les plus pertinents.
> Possibilité d'aller directement sur le site jugé le plus pertinent par rapport à la requête.

- Description des documents retrouvés

Affichage des différentes zones permettant de caractériser un document donné en réponse.

Titre du site (en lien)
> lorsqu'il y en a un (sinon URL par exemple).

URL
> Mention de l'adresse du document.

Date
> Date de dernière mise à jour mentionnée dans le résultat.

Langue du document
> Précision de la langue du document web retrouvé par la requête.

Taille du fichier
> Indication (en Ko) du poids prévisible du fichier web retrouvé

Extrait / résumé du document
> Texte extrait de la page et permettant de mieux appréfier la correspondance du document web avec la requête (question des résumés automatiques).

Catégorie
> Dans le cas où le moteur prend également en compte des résultats issus d'un répertoire : affiche la catégorie à laquelle se référe le document.

Pages en cache
> Dans les résultats, lien vers les pages web (correspondant aux réponses) mémorisées telles qu'elles étaient lors du dernier passage du moteur.
> Avantage : en cas d'indisponibilité du site.

Fenêtre de visualisation du document dans le résultat.
> d'ordinaire pour afficher le document web, clic sur le lien et la page s'ouvre sur l'adresse correspondante (on n'est plus dans la liste de résultats).
> cette option permet en revanche d'afficher une petite fenêtre présentant un extrait de la page juste sous la référence.

Liens d'orientation à partir du résultat :
> vers les citations de la ressource
> vers des articles
> vers un catalogue collectif de bibliothèques
> vers une bibliothèque précise

 haut de page


Exemples de requête pour la comparaison des pages de résultats

Examiner et comparer les modalités de présentation des résultats pour les requêtes suivantes :

- La pertinence des moteurs de recherche

- Les agents intelligents

- Les archives ouvertes pour la communication scientifique

 haut de page

Interfaces, aide à la recherche

Les interfaces

L'aide à la recherche


Les interfaces

Définition des interfaces :

- Au sens strict, les interfaces comprennent tous les éléments logiciels qui facilitent l'interaction homme-machine, cad l'utilisation de l'ordinateur ou d'un logiciel particulier : icônes, dispositifs de pointage, ergonomie générale d'un logiciel ; i.e. tout ce qui rend un logiciel plus ou moins "convivial", facile d'utilisation.
- Au sens large, les interfaces comprennent également les aspects de lisibilité, d'ergonomie : choix des couleurs, typographie, simplicité ou non de la présentation des informations, circulation dans le site, etc.
> les interfaces visent à faciliter le "dialogue homme-machine".

Importance des interfaces et de la notion d'interface :

en Informatique :

- les interfaces conditionnent l'usage, plus ou moins simplifié, intuitif, d'un logiciel ou d'un outil informatique.
- représentent tout un courant de recherche essentiel en informatique, né dans les années 60 à partir des travaux de Douglas Engelbart, inventeur de la souris et des premiers hypertextes, et véritable "ingénieur des interfaces".
> projet de recherche d'Engelbart : améliorer tous les dispositifs hommes-machines, pour faciliter le travail intellectuel (notion "d'augmentation" du potentiel de travail intellectuel)
- progrès dans le domaine des interfaces à l'origine de la diffusion massive et de la démocratisation de l'ordinateur :
> voir la rupture créée par Apple avec les premiers MacIntosh ou par Microsoft avec le lancement du premier Windows graphique

au plan théorique :

La notion d'interface homme / machine, qui englobe tous les dispositifs permettant l'interaction avec l'ordinateur, a été élargie au plan théorique par Pierre Lévy :
" la notion d'interface renvoie à des opérations de traduction, de mise en contact de milieux hétérogènes. Elle évoque à la fois la communication (ou le transport) et les processus transformateurs nécessaires au succès de la transmission. " (in Les Technologies de l'intelligence, Paris, La Découverte, 1990, p. 199)

> approche originale des technologies intellectuelles et des ordinateurs, considérés comme des "réseaux d'interfaces ", des emboîtements de couches successives... :

exemple du livre recouvert, au fil des siècles, d'un très grand nombre de couches d'interfaces : du papyrus au codex, puis à l'imprimé, l'imprimé permettant à son tour l'apparition des divers dispositifs d'aide à la lecture (table des matières, index, ponctuation..)

Les interfaces ne se " superposent " pas, elles s'interconnectent, et surtout elles conditionnent le message, l'information transmise, l'interaction, elles traduisent et induisent de nouvelles actions, de nouveaux usages, de nouvelles significations.

Intérêt et fécondité de cette notion d'interface :
pour la mise à jour des nouvelles pratiques cognitives ou éducatives, permises par le numérique :
nécessité d'observer plus finement ce qui se trame dans les nouveaux agencements, dans les modifications intervenant à chaque nouvelle couche d'interface.

par exemple, il est intéressant d'analyser les conséquences de l'introduction des nouvelles interfaces du web dans les logiciels et procédés de recherche documentaire, ou bien ici les progrès des interfaces des moteurs de recherche et leurs conséquences sur les usages et les pratiques des utilisateurs.

Comparaison des interfaces et de l'ergonomie des moteurs de recherche :

Plusieurs critères peuvent être pris en compte ; choix de limiter la comparaison à deux catégories de critères :

la lisibilité, l'ergonomie générale du moteur

l'ergonomie de la recherche 

Lisibilité, ergonomie générale :
trois critères proposés :

la lisibilité de la page d'accueil :
> simplicité ou surcharge de la page d'accueil : quantité de textes, d'images, équilibre texte/images, lisibilité d'ensemble...
> clarté de la représentation de l'ensemble de la page d'accueil
> choix de la typographie : taille, choix des polices, mise en forme, etc

les couleurs :
> choix, nombre, "pertinence" des couleurs du point de vue de la lisibilité... 

la navigation :
> facilité d'orientation (sommaire, plan du site...)
> facilité de navigation (aller-retour, retour page d'accueil, ascenseur...)

Ergonomie de la recherche :
Quatre critères proposés : 

clarté du formulaire :
> les fonctions de recherche sont-elles bien explicitées et compréhensibles par un utilisateur néophyte ?

facilitation de la recherche :
> le formulaire de requête est-il éclaté en différentes zones de requête ?
> si oui, les différentes zones sont-elles bien équilibrées ou trop nombreuses ?
> est-ce que l'utilisateur est guidé dans sa recherche ? 

extensibilité du formulaire :
> possibilité d'ajout de champs ou de fenêtres de requête : fonctionnalité assez rare sur les moteurs de recherche
> le formulaire de recherche peut-il être modulable, ou bien est-il donné "en bloc" ?

Options de personnalisation :
> critère portant aussi sur les fonctions de recherche ou sur les fonctionnalités annexes
> l'utilisateur peut-il paramétrer ses recherches et conserver ses paramètres d'interrogation ? etc.
> l'utilisateur peut-il choisir ses outils d'interrogation ?

 haut de page


L'aide à la recherche

Les fonctionnalités d'aide à la recherche font partie des interfaces au sens large mais sont considérées ici de manière plus spécifique : 

- elles constituent les interfaces propres au processus de requête (et non au dialogue homme-machine en général)
- elles comprennent tous les dispositifs explicites d'aide à la recherche : aide en ligne, explication des commandes, conseils, etc.
- elles renvoient à la comparaison des fonctions de recherche simple et avancée, par l'explicitation de la syntaxe de recherche, la formulation des opérateurs, etc.

haut de page

Rappel sur le fonctionnement des moteurs

Définition

Typologie

Principe généraux


Définition

Termes utilisés le plus fréquemment : Moteurs, robots de recherche, spiders, search engines...

Instrument automatisé de recherche d'information, fondé sur un recensement des sites , sur la mémorisation partielle ou intégrale de leur contenu et la construction d'un index, enfin sur l'élaboration de procédures d'accès à l'information par le biais d'une interface de recherche par mots clés (simple / avancée).

Permet de récupérer du texte, des images, du son...

 haut de page


Typologie

* Typologie selon le référentiel internet :

Moteurs généralistes (Yahoo Search, Google, Exalead, Teoma...) / Moteurs spécialisés :

- spécialisation par type de service internet (ex : recherche sur les news, les listes de diffusion)
- spécialisation par type de document ou d'objet internet (ex : recherche d'images)
- spécialisation par domaines linguistiques (ex : moteurs francophones)
- spécialisation par domaines géographiques
- spécialisation par thématiques, par champs disciplinaires (ex : Scirus pour les sciences, In Extenso pour les Sciences Humaines et Sociales, Légicité pour le droit, Medhunt pour la médecine...)
- spécialisation sur le web invisible

* Typologie selon le type de traitement des requêtes

- Procédures classiques de recherche booléenne
- Introduction de traitements linguistiques et statistiques

* Typologie selon les services rendus à l'utilisateur

- Recherche d'information
- Filtrage de l'information
- Veille
- Personnalisation

* Typologie selon la présentation des résultats de requête

- Présentation des résultats sous forme d'une liste simple
- Présentation des résultats sous forme d'une liste de résultats avec possibilité d'affiner la requête (mots clés connexes, liens de communautés d'experts...)
- Présentation des résultats sous forme graphique (cf. vignettes Exalead...)

 haut de page


Principe généraux

A la base, exécution de tâches effectuées par 3 modules automatiques :

- exploration de sites et collecte de l'information
- indexation
- recherche

MODULE DE COLLECTE (spider, crawler, worm)

Procède à une exploration à fréquence régulière des serveurs web ou autres.

A partir d'un ensemble donné de pages initiales, le robot explore les réseaux de liens du web et parcourt les différentes ressources de l'Internet (sites web, forums, etc.), constituant le "web visible" (accessible par ces robots de collecte).

Exploration variable selon les moteurs.

Peuvent être utilisés par plusieurs moteurs

MODULE D'INDEXATION

Le module indexeur construit un index général de recherche des données = indexation du code source html de la page web; l'indexation peut être faite par rapport à des champs spécifiques (titre, url, métadonnées...)

L'index d'un moteur constitue sa base de données ; il est constitué :
- d'un index principal, contenant les millions (voire les milliards) de Pages web et de documents capturés par le robot collecteur
- de fichiers inverses, contenant tous les termes d'accès, renvoyant aux pages web.

Variations de l'indexation selon les moteurs et les règles suivies .
Evolution : des index de plus en plus grands, prenant en compte de plus en plus de formats de fichiers et de types de documents.

Tout le web n'est pas indexé = web invisible. Mais recul du web invisible et innovations permanentes des moteurs (recherche sur les actualités, sur la littérature grise...)

MODULE DE RECHERCHE

Interface (type formulaire) de requête par mots clés avec équation booléenne et syntaxe d'interrogation : appariement entre entre la requête posée et les éléments contenus dans l base d'index.

Plusieurs niveaux de requête : simple/avancée, pages web/autres ressources.
Fonctionnalités diverses selon les moteurs ; évolution vers les procédures d'affinement de la requête et vers des services personnalisés.

 haut de page

Recherche simple et avancée

Options linguistiques

Options de recherche booléenne et de proximité

Options de filtrage

Options d'affinement et élargissement de la recherche


 Remarques sur les fonctionnalités de recherche et présentation du TP

Quelques remarques générales :

- sophistication, diversification des fonctionnalités de recherche : progrès considérables dans les fonctions offertes, dans les possibilités de filtrage des requêtes, etc.
- augmentation, amélioration et simplification des fonctions de recherche en "mode simple" : désormais, la page d'accueil de plusieurs moteurs offre la quasi-totalité des fonctions de recherche.
> la distinction entre "mode simple" et mode avancé" de recherche est devenue peu pertinente et nous l'avons abandonnée dans notre grille de comparaison.
- les progrès les plus importants : ils se situent dans les options de filtrage de l'information, dans les possibilités offertes aux internautes d'activer eux-mêmes différents filtres : géographiques, linguistiques, thématiques, etc.

Objectifs du TP :

- observer et tester (presque) toutes les fonctions de recherche présentes sur les moteurs, dès la page d'accueil et en mode avancé ;
- pouvoir comparer quelques moteurs de recherche, à partir de l'observation de leur formulaire et de leurs fonctions de recherche ;

- l'objectif général reste bien entendu une meilleure maîtrise des outils, à la fois pratique et intellectuelle.

Regroupement des fonctionnalités ou options de recherche en quatre grandes catégories :

- Options linguistiques
- Options de recherche booléenne et de proximité
- Options de filtrage des requêtes
- Options d'affinement et d'élargissement de la requête

Faire la comparaison des moteurs :

Google France (http://www.google.fr/)

Yahoo Recherche France (http://fr.search.yahoo.com/)

Exalead (http://www.exalead.fr/search)

Google Scholar (http://scholar.google.com/)

In-Extenso.org (http://www.in-extenso.org/)

Google fr Blogsearch (http://www.google.fr/blogsearch)

Technorati (http://www.technorati.com/)

Deux questions préalables :

Option de recherche avancée :

Existe-t-il une option de recherche avancée, disponible dès la page d'accueil ?

Options de paramétrage :

Existe-t-il la possibilité de paramétrer l'interface de requête ? (page Préférences)


Options linguistiques

Par options linguistiques, nous englobons toutes les fonctions, les opérateurs, les aides, etc. portant sur les aspects linguistiques de la recherche : aussi bien les règles de saisie (sensibilité à la casse...) que les procédés de traitement automatisé du langage naturel (TALN) mis en oeuvre par les moteurs (lemmatisation, etc.).

Distinction minuscules/majuscules :

> sensibilité à la casse : le moteur est-il ou non sensible à la différence minuscules/majuscules ?
Intérêt : distinction des noms propres et des noms communs.

Exemple : paris, PARIS, Paris

Distinction des acents, lettres accentuées :

> sensibilité à la casse : le moteur prend-il ou non les accents en compte ?
Intérêt : recherches plus fines sur les occurrences

Exemple : ferme/fermé, côte/coté

Prise en compte de l'ordre des mots :

> Indifférent ou non ?

Exemple : Paris Dakar ou Dakar Paris

Recherche d'une expression, de phrases :

- fonction liée à la présence implicite d'opérateur de proximité ; possibilité ou non de recherche sur des expressions ou des phrases exactes sur la page d'accueil ;

Exemple : taper, avec et sans guillemets, une expression ou une phrase quelconque (par ex., maladie de la vache folle) 

Troncature à droite disponible :

- possibilité ou non d'élargir les recherches à partir de la racine des mots
> Questions : disponibilité ou non de la troncature sur la page d'accueil ? option proposée par défaut ou non ? quelle étendue de la troncature (3 ou x caractères) ? quelle syntaxe (*, %) ?

Exemple : requêtes sur le préfixe biblio

Troncature centrale (masque) disponible :

- possibilité ou non de remplacer un mot entier, notamment dans une expression entre guillemets

Exemple : requête sur anglopho*e (pour trouver à la fois anglophone et anglophobe)

Suggestions de recherche :

> est-ce que le moteur de recherche propose des suggestions de recherche, à partir d'une requête : autres mots, synonymes, thèmes voisins, etc. ?

Exemple : avocat

Correction orthographique :

- présence ou non d'un dictionnaire pour vérifier l'orthographe des requêtes.
> correction automatique ou non des fautes de frappe ?

Exemple : biblitheque

Elimination des mots-vides ("stop-list") :

- procédé de traitement automatisé du langage naturel (TALN), de niveau morphologique : élimination des mots-vides (articles, prépositions, etc.), ou trop répandus sur le web (poids sémantique faible : http, .com, etc.)

Exemple : tour de France

Lemmatisation :

- parfois appelée stemming
- lemmatisation : procédé de traitement automatisé du langage naturel, de niveau lexical, consistant à ramener automatiquement les mots à leur racine, les pluriel au singulier, les verbes à l'infinitif...
Fonction à ne pas confondre avec la troncature.

Exemple : faire une recherche sur animaux :
le moteur renvoie-t-il également les pages contenant animal ?

Reconnaissance de groupes nominaux :

- procédé de traitement automatisé du langage naturel (TALN) de niveau syntaxique: reconnaissance d'expressions ou de groupes nominaux : accident du travail, téléphone mobile, Louis XV, etc.
> à ne pas confondre avec la recherche d'expressions entre guillemets, fondée sur la reconnaissance de chaînes de caractères.

Exemple : faire une recherche sur mission spatiale

Recherche multilingue :

- possibilité de traduire les termes de la requête dans plusieurs langues

Recherche phonétique :

- extension de la recherche à tous les mots, dont la prononciation ou l'écriture est proche des termes de la requête

Recherche de définitions :

- présence ou non d'un dictionnaire, disponible dès la page d'accueil

Recherche de synonymes :

- le moteur permet-il une recherche automatisée des synonymes ?
- exemple : recherche sur séisme, ou bien en anglais sur mind

 haut de page


Options de recherche booléenne et de proximité

Opérateur implicite ET :

> l'opérateur de recherche implicite est-il l'opérateur d'intersection (ET) ?
Enjeu important : très grande différence dans la pertinence des résultats selon l'opérateur utilisé

Exemple : bibliothèque numérique

Tous les opérateurs booléens disponibles :

> tous les opérateurs booléens sont-ils disponibles en recherche simple : ET (signe +, ou AND), OU (OR), SAUF (signe -, AND NOT) ?

Exemple : +bibliothèque +numérique, +bibliothèque -numérique

Opérateur de proximité NEAR disponible :

l'opérateur NEAR permet de rechercher les documents contenant les termes de la requête, situés à moins de 10 ou 20 mots de distance l'un de l'autre.

Exemple : bibliothèque NEAR numérique

Opérateur optionnel (OPT) disponible :

- L'opérateur OPT recherche un terme de façon optionnelle : les pages contenant le mot après OPT seront affichées en premier, mais les pages ne contenant pas ce mot ne seront pas éliminées.

Exemple : taper bibliothèque OPT numérique

Opérateur d'adjacence :

- l'opérateur ADJ ou NEXT recherche deux mots apparaissant l'un à côté de l'autre

Exemple : bibliothèque NEXT numérique

Parenthésage :

- possibilité d'élaborer des équations de recherche, avec des parenthèses

Exemple : recherche de documents sur les outils de recherche (les annuaires et moteurs, mais pas les métamoteurs) en France et au Canada :
- (outils de recherche AND NOT métamoteurs) AND (France OR Canada)

 haut de page


Options de filtrage

L'une des principales évolutions des fonctionnalités de recherche des moteurs est sans conteste l'augmentation et la diversification constantes des options de filtrage des requêtes.
Il existe plusieurs types de filtrages des requêtes : géographique, linguistique, par types de ressources, etc.
Plusieurs niveaux de filtrage, du plus large au plus précis : recherches sur les différentes parties du web, sur les types de documents, sur les documents eux-mêmes...

⇒ Options de filtrage en mode simple :

Filtrage géographique : web mondial, francophone, régional
> quelle possibilité de préciser l'origine géographique des ressources ?

Filtrage linguistique :
> quelle possibilité de choisir la langue des documents ?

Filtrage par types de ressources : images, vidéo, audio…
> quelle possibilité de faire des recherches multimédia ?

Filtrage des ressources Internet : Web, forums Usenet, Messagerie, Journaux, blogs…
> quelle possibilité de choisir la nature des ressources : pages web, messages de forums, courrier électronique, ressources de presse, blogs... ?

Filtrage par types de formats :
> quelle possibilité de chercher des documents d'un format de fichier spécifique : PDF, RTF, PPT, etc. ?

Filtrage par dates :
> quelle possibilité de préciser les dates de publication des pages web ?

Filtrage des champs de requête : titre, URL, domaine…
> quelle possibilité de requête sur des champs précis des pages web, dès la page d'accueil ?

Filtrage thématique : choix du domaine de recherche
> quelle possibilité de restreindre la recherche à un thème précis et prédéfini ?

Autres filtrages :
> existe-t-il d'autres possibilités de filtrage ? si oui, lesquelles ?  

Exemples :
- filtrage sur des zones géographiques précises
- filtrage sur les "niveaux de la page" : recherches dans les niveaux de l'index, à partir d'une adresse web

⇒ Options de filtrage en mode avancé :

Nombre d'options de choix de dates :
> quelles possibilités de choix dans une liste d'options ? documents parus depuis un mois, trois mois, six mois, etc. ?

Possibilité de recherche sur des périodes précises :
Exemple : recherche de documents sur XML parus entre le 1er juiller 1999 et le 1er janvier 2001

Recherche sur la date de publication d'une revue :
- par exemple sur Google Scholar, possibilité de rechercher un article par sa date de parution ?

Nombre de formats de fichiers accessibles :
- Syntaxe : filetype:, feature:
> étendu ? limité ? Relever le nombre des formats proposés.

Option de recherche sur les noms de domaine :
- Intérêt : permet de filtrer les recherches sur un domaine générique (par exemple .com, .edu, .org, etc) ou géographique (.fr, .ca) ; outil d'identification de l'information.
- Syntaxe : domain:
Exemple :
- recherche de documents sur la marée noire du Prestige, produits par les associations (domaine .org)

Option de recherche sur le n° IP :
Possibilité de rechercher un serveur par son n° IP
- Syntaxe : ip:

Option de recherche sur le nom de serveur :
Possibilité de limiter les recherches à un serveur précis.
- Syntaxe : host:
Exemple :
- recherche de toutes les pages web du site de l'Université de Rennes 2

Option de recherche sur les URL :
- Intérêt : recherche très précise d'un document
- Syntaxes possibles : url:, inurl:, allinurl:
Exemples :
- recherche de fichiers contenant les mots moteurs de recherche dans l'URL

Option de recherche sur les titres :
- Champ indexé : titre complet de la barre de titre d'une page web
- Syntaxe : title:, intitle:, allintitle:
Exemple : recherche de pages web contenant les termes moteurs de recherche dans le titre

Option de recherche sur le texte :
- Champ indexé : texte complet de la page, sauf l'URL, les hyperliens, les métadonnées
- Syntaxe : text:

Option de recherche sur les liens (adresse du lien) :
- Champ indexé : URL complète citée dans une page web
- Syntaxe : link:
Exemple : recherche de pages web citant le site de Rennes 2

Option de recherche sur les liens (contenu des mots hyperliés) :
- Champ indexé : l'expression ou le mot hyperlié, cad faisant l'objet d'un lien
- Syntaxe : anchor:, inanchor:, allinanchor:
Exemple : recherche de pages web comportant Université de Rennes 2 en lien

Option de recherche sur la localisation géographique des ressources :
- Recherche par ville, par région ou par pays
- Syntaxe possible : loc: ou location:

Option de recherche sur les flux RSS :
- possibilité de chercher des sites contenant des flux RSS
- syntaxe possible : feed:

Option de recherche sur l'auteur d'un livre ou d'un article :
- possibilité de chercher un document scientifique (ouvrage, article, thèse...), par son auteur
- syntaxe : author:

Option de recherche sur le titre d'une revue :
- possibilité de chercher une revue scientifique par son titre

Option de recherche sur des catégories thématiques :
- possibilité de chercher des ressources (scientifiques) selon des catégories ou des domaines disciplinaires

Option de recherche sur l'adresse des images :
- Champ indexé : mot dans l'adresse URL de l'image
- Syntaxe : image:
Exemple : recherche d'images de Gilles Deleuze

Option de recherche sur la taille des fichiers :
- quelle possibilité de chercher des fichiers selon leur taille en octets, i.e. leur volume ?

Option de recherche sur les métadonnées description et keyword :
> quelle possibilité d'interroger spécifiquement les métadonnées ?

Autres champs de recherche :
> quels sont les autres champs de recherche, propres à certains moteurs ?
Exemples :
- recherches sur les applets : syntaxe applet:
- recherche sur les correcteurs de mots (sur Google) : syntaxe spell:
- recherche sur les copies des pages web (Google) : syntaxe : cache:adresseURL

 haut de page


Options d'affinement et élargissement de la recherche

Quelles sont les possibilités d'affiner ou d'élargir les requêtes, avant l'obtention de résultats ?

⇒ Options d'affinement :

Recherche sur les pages similaires :
- champ indexé : adresse URL d'une page similaire
- syntaxe (Google) : related:adresse URL
> deux utilisations possibles du champ related :
- quelles sont les pages similaires à telle page trouvée (mais nécessité de connaître au préalable l'URL...) ?
- à l'inverse, est-ce que telle page sur tel sujet est considérée comme page similaire ?

Exemple : faire une recherche sur Google sur les bibliothèques virtuelles et chercher les pages similaires au premier résultat 

Option de recherche sur un site précis :
> quelle possibilité de chercher dans un site précis ?
- syntaxe (Google) : site:
Exemple : chercher les pages de l'Urfist sur le site de Rennes 2

⇒ Options d'élargissement :

Option de recherche sur d'autres parties du web :
- sur Google Scholar, possibilité d'élargir la recherche au web "visible"
- bouton WebSearch

Option de recherche sur des catalogues de bibliothèques :
- sur Google Scholar, possibilité d'élargir la recherche au catalogue collectif WorldCat de l'OCLC
- bouton Library Search


Quel bilan ?

On relève quelques disparités entre les moteurs de recherche, selon les fonctionnalités : certains moteurs sont plus performants dans les options linguistiques, d'autres dans le filtrage, ou dans l'affinement des requêtes ; la comparaison montre les orientations techniques des moteurs, qui ont des priorités différentes dans l'indexation et le traitement des requêtes.
Mais l'homogénéisation croissante des fonctions de recherche semble l'emporter sur les différences.

Ces critères sont-ils suffisants pour évaluer la pertinence d'un outil ?

Quel bilan de la comparaison des modes de recherche avancée ?
- quelles limites de ce type de description des moteurs ?


Exemples de questions de recherche complexes

Recherche de documents récents sur la pédagogie de l'information dans les universités, en français, disponibles en format Word ou PDF :

Mots-clés proposés et champs de recherche :

+"maîtrise de l'information" +pédagogie +université*

langue : français ou domain:fr

date : depuis 2003

filetype:.doc OU filetype:.pdf

Des textes, anglais et français, publiés en 2002 sur les aspects cognitifs de l'hypertexte et les nouvelles formes de lecture :

Mots-clés proposés et champs de recherche :

+hypertexte* +cognition

"pratiques de lecture" OU "formes de lecture" OU lecture

2002

Un support de cours français, sous Power Point, sur les enjeux de XML dans les bibliothèques

Des documents très récents sur la veille technologique dans le domaine des réseaux sans fil

Les documents publiés par l'ADBS sur la gestion des connaissances

Des statistiques récentes sur le taux de chômage des jeunes en Algérie

haut de page

Services complémentaires

 De plus en plus, les moteurs de recherche proposent différentes fonctionnalités liées à la recherche et à la gestion de résultats, différents services de personnalisation, parfois difficiles à regrouper sous une rubrique clairement identifiée et qui figurent ici sous l'appellation de "Services complémentaires ".

Comparaison des 3 moteurs généralistes :

Google France (http://www.google.fr/)
Yahoo Search Technology France (http://fr.search.yahoo.com/)
Exalead (http://www.exalead.fr/search)

Le compte utilisateur :

Il constitue l'élément essentiel pour l'accès à de nombreux services personnalisés. Les moteur propose-t-il la création d'un compte avec identifiant et mot de passe pour accéder à des services ?

La barre d'outil :

Est-ce que le moteur propose une barre d'outil, ou des boutons de commande, téléchargeables ?

Filtre parental :

Le moteur permet-il un paramétrage permettant de bloquer l'accès à certains sites ?

Gestion des résultats : Signets

Le moteur permet-il, dans son interface, de poser des signets sur les résultats ?

Sauvegarde de la recherche :

Existe-t-il un historique de la recherche, permettant de sauvegarder les résultats d'une requête, pour reprendre la recherche plus tard ?

Envoi des résultats :

Possibilité de se faire envoyer les résultats d'une requête à son adresse électronique

Système de veille et d'alerte :

Le moteur propose-t-il un service personnalisé de veille et d'alerte sur des thèmes prédéfinis ?

Lecteur RSS

Le moteur propose-t-il en complément un outil de lecture des flux RSS ?

Outils de traduction :

Existe-t-il un service de raduction automatisée des pages web trouvées ? combien de langues sont proposées ?

Répertoire :

Le moteur de recherche est-il couplé à un annuaire, dans lequel des requêtes sont possibles ?

Service de référencement :

Le moteur propose-t-il un formulaire aux webmasters pour soumettre un site web au référencement par le moteur ?

Mise à disposition du moteur sur les sites des utilisateurs :

Est-ce qu'il est possible de télécharger (gratuitement ou non) le moteur de recherche pour l'implanter sur son site web ?

Création de blog

Le moteur propose-t-il en complément un outil de création de blog ?

Moteur de bureau

Est-ce que le moteur propose une fonction de recherche de fichiers sur le disque dur de l'utilisateur (documents worf, e-mail, fichiers pdf, vidéos...) ?

Blog du moteur

Le moteur dispose-t-il d'un blog pour ses utilisateurs ?

Recherche d'ouvrages

L'interface de recherche web permet-elle d'accéder à des références d'ouvrages dans la liste des résultats ?

Services de communication

par exemple messagerie, espaces partagés pour les résultats de recherche...

Autres services :

- possibilité de voir les requêtes les plus fréquentes ?
- possibilité de voir les autres requêtes faites au même moment ?
- possibilité de recherches sans graphiques pour accélérer les temps de réponse ?
- ...

 haut de page

Types de ressources proposées

Taille de l'index

Modules spécifiques

Formats de fichiers spécifiques

Nombre de langues proposées


Remarques sur les ressources proposées et présentation du TP

Quelques remarques générales :

- la richesse, la qualité, la diversité des ressources indexées par les moteurs deviennent des éléments importants de différenciation entre les outils.

- cette richesse des ressources (i.e. de la base d'index de chaque moteur) s'apprécie selon différents critères, quantitatifs (le nombre de pages web, le nombre de langues, le nombre de formats de fichiers...) et qualitatifs (la rareté de certains formats de fichiers, la diversité des modules spécialisés, la nature des ressources, etc.)

- ces deux critères correspondent à deux tendances, qui coexistent chez les moteurs de recherche : d'une part l'augmentation du nombre de ressources collectées (course à l'index le plus grand, accroissement constant des index spécialisés...), d'autre part la spécialisation, la diversification des ressources ; Google exprime le mieux la synthèse de ces deux tendances, parfois contradictoires.

Objectifs et déroulement du TP :

- recenser les différents types de ressources, pouvant être collectés et indexés par les outils de recherche

- comparer les sept moteurs de recherche du point de vue de la richesse de leur index :

Google France (http://www.google.fr/)

Yahoo Recherche France (http://fr.search.yahoo.com/)

Exalead (http://www.exalead.fr/search)

Google Scholar (http://scholar.google.com/)

In-Extenso.org (http://www.in-extenso.org/)

Google fr Blogsearch (http://www.google.fr/blogsearch)

Technorati (http://www.technorati.com/)

- pour faire le TP, observer l'interface de recherche, consulter l'Aide en ligne, observer les fenêtres de recherche des formats de fichiers et de langues...

Regroupement des critères en quatre catégories :

- Taille de l'index
- Modules spécialisés
- Formats de fichiers
- Langues proposées


Taille de l'index 

  • Rappel sur l'index :

L'index est le "coeur" du moteur et lui appartient en propre (alors que le module de collecte peut être commun à plusieurs moteurs).
Sur le rôle, l'importance et la taille des index, voir la partie sur le fonctionnement des moteurs, dans le support : Panorama des évolutions de la recherche d'information
http://www.sites.univ-rennes2.fr/urfist/Supports/EvolRechinfo/Rechinfo2_cadre.htm
et
http://www.sites.univ-rennes2.fr/urfist/Supports/EvolRechinfo/PanoramaEvolRechInfo02-05.ppt 

  • Relever (sur la page d'accueil du moteur) ou chercher (dans l'aide, ou dans des ressources externes) le nombre de pages indexées par chaque moteur.

 haut de page


Modules spécifiques

La tendance à la spécialisation :

Les moteurs de recherche proposent de plus en plus de chercher, dès la page d'accueil, dans différents modules, représentés par des onglets. Limités généralement à des critères linguistiques (web mondial / web francophone), les modules de recherche ne cessent pourtant de s'enrichir et de se diversifier, comme le montre l'exemple de Google. Il s'agit ici de repérer quel(s) module(s) proposent en particulier les 3 moteurs généralistes, soit dès l'interface de recherche simple, soit dans la recherche avancée.

Le regroupement d'un ensemble de critères observés dans les interfaces de recherche permet de catégoriser les ressources sur lesquelles se fondent les moteurs :

- La langue et l'origine des ressources

Web mondial :
- le moteur indexe-t-il les ressources du web mondial, sans distinction de langues ?

Web francophone :
- le moteur indexe-t-il et propose-t-il spécifiquement les ressources du web francophone?

Web français :
- le moteur indexe-t-il et propose-t-il spécifiquement les ressources du web français, i.e. du domaine .fr ?

- La nature de l'information

Module d'images :
- le moteur indexe-t-il spécifiquement les images ?
> indiquer si possible le nombre d'images (volume de la base)

Vidéos :
- le moteur indexe-t-il des fichiers vidéos ? Existe-t-il pour cela un module spécifique, ou s'agit-il plutôt d'une possiblité de filtrage ?

Audios
- le moteur indexe-t-il des fichiers audios ? Existe-t-il pour cela un module spécifique, ou s'agit-il plutôt d'une possiblité de filtrage ?

- Le type de ressources internet

Forums :
- le moteur de recherche indexe-t-il spécifiquement les forums de discussion (newsgroups) ?

Annuaire :
- le moteur donne-t-il accès aux ressources d'un annuaire thématique (Open Directory, Guide Yahoo...) ?

Weblogs :
- le moteur de recherche indexe-t-il spécifiquement les weblogs ?

Fils RSS :
- le moteur permet-il d'accéder à des flux RSS ?

- La nature du contenu

Littérature scientifique :
- le moteur propose-t-il un module d'accès à la littérature scientifique (articles de revues spécialisées, rapports de recherche...)?

Actualités :
- le moteur propose-t-il, de manière spécifique, des ressources de la presse quotidienne et généraliste (dépêches, articles, revues de presse...) ?

Dictionnaires
- le moteur propose-t-il la recherche dans des ressources de type dictionnaire, ou dans un dictionnaire en particulier, permettant ainsi de récupérer des définitions des termes de recherche ?

Encyclopédies
- le moteur propose-t-il la recherche dans des ressources de type encyclopédie, ou dans une encyclpoédie en particulier ?

Images satellites
- Peut-on avec le moteur accéder à des images satellites, et quelles possibilités donne-t-il de traiter ces images ?

Recherches spécialisées
- Peut-on avec le moteur à un ensemble de ressources spécialisées (par exemple disciplinaires, ou de presse, ou multimédias...) ?

- Le type de support

Bases de données
Le moteur donne-t-il accès à des bases de données (gratuites / payantes)et ainsi à des ressources du web invisible ?

Livres
Le moteur permet-il de rechercher des monographies, dans une interface distincte et avec quelles fonctionnalités ?

Catalogues
Le moteur propose-t-il un accès à des catalogues de bibliothèques ou de fonds documentaires divers, privilégiant ainsi l'accès au web invisible ?

- Les droits d'utilisation (Licences)

En particulier, les pages créées sour Creative Commons.

- Les services proposés

Géocalisation
Le moteur propose-t-il des ressources localisées (plan) ?

Produits / Catalogues de produits
Le moteur donne-t-il accès à une recherche de produits commerciaux ?

Coordonnées téléphoniques
Le moteur permet-il la recherche de coordonnées téléphoniques d'une personne ?

Questions / Réponses
Le moteur propose-t-il un service de questions / réponses à l'utilisateur ?

Autres
autres types de modules spéficiques proposés ?

⇒ Pour les moteurs Google Scholar et In-Extenso, proposant des ressources spécialisées, on tentera d'identifier plus précisément ces ressources, en particulier selon :

- les domaines scientifiques = secteurs disciplinaires
- l'origine des ressources = dépôts d'archives ouvertes, sites web, revues numérisées et ressources d'éditeurs, ressources universitaires
- la nature des documents = articles scientifiques, ouvrages, thèses, rapports, catalogues de bibliothèques

 haut de page


Formats de fichiers spécifiques

Dans les premiers temps du web, les moteurs de recherche n'indexaient strictement que les pages web, i.e. les fichiers HTML. Peu à peu, ils ont collecté et indexé d'autres formats de fichiers, Google montrant la voie dans ce domaine. Aujourd'hui, autant que le nombre, c'est la nature des fichiers indexés, la rareté de certains formats, qui fait la différence entre les moteurs (par exemple les fichiers liés à des flux RSS).

Il s'agit donc ici de recenser les formats de fichiers précis indexés par les moteurs du panel :

PDF (Portable Document Format)

DOC (fichiers Word)

PPT (Power Point)

XLS (Excel)

TXT (Texte)

RTF (Rich Text Format)

PS (Post Script)

RSS / XML

WPD (Corel Word Perfect)

SWF (Flash Macromedia)

GIF

JPG

MP3

Autres

 haut de page


Nombre de langues proposées

- le moteur indexe des documents de combien de langues différentes ?

haut de page