Types de ressources proposées

Taille de l'index

Modules spécifiques

Formats de fichiers spécifiques

Nombre de langues proposées


Remarques sur les ressources proposées et présentation du TP

Quelques remarques générales :

- la richesse, la qualité, la diversité des ressources indexées par les moteurs deviennent des éléments importants de différenciation entre les outils.

- cette richesse des ressources (i.e. de la base d'index de chaque moteur) s'apprécie selon différents critères, quantitatifs (le nombre de pages web, le nombre de langues, le nombre de formats de fichiers...) et qualitatifs (la rareté de certains formats de fichiers, la diversité des modules spécialisés, la nature des ressources, etc.)

- ces deux critères correspondent à deux tendances, qui coexistent chez les moteurs de recherche : d'une part l'augmentation du nombre de ressources collectées (course à l'index le plus grand, accroissement constant des index spécialisés...), d'autre part la spécialisation, la diversification des ressources ; Google exprime le mieux la synthèse de ces deux tendances, parfois contradictoires.

Objectifs et déroulement du TP :

- recenser les différents types de ressources, pouvant être collectés et indexés par les outils de recherche

- comparer les sept moteurs de recherche du point de vue de la richesse de leur index :

Google France (http://www.google.fr/)

Yahoo Recherche France (http://fr.search.yahoo.com/)

Exalead (http://www.exalead.fr/search)

Google Scholar (http://scholar.google.com/)

In-Extenso.org (http://www.in-extenso.org/)

Google fr Blogsearch (http://www.google.fr/blogsearch)

Technorati (http://www.technorati.com/)

- pour faire le TP, observer l'interface de recherche, consulter l'Aide en ligne, observer les fenêtres de recherche des formats de fichiers et de langues...

Regroupement des critères en quatre catégories :

- Taille de l'index
- Modules spécialisés
- Formats de fichiers
- Langues proposées


Taille de l'index 

  • Rappel sur l'index :

L'index est le "coeur" du moteur et lui appartient en propre (alors que le module de collecte peut être commun à plusieurs moteurs).
Sur le rôle, l'importance et la taille des index, voir la partie sur le fonctionnement des moteurs, dans le support : Panorama des évolutions de la recherche d'information
http://www.sites.univ-rennes2.fr/urfist/Supports/EvolRechinfo/Rechinfo2_cadre.htm
et
http://www.sites.univ-rennes2.fr/urfist/Supports/EvolRechinfo/PanoramaEvolRechInfo02-05.ppt 

  • Relever (sur la page d'accueil du moteur) ou chercher (dans l'aide, ou dans des ressources externes) le nombre de pages indexées par chaque moteur.

 haut de page


Modules spécifiques

La tendance à la spécialisation :

Les moteurs de recherche proposent de plus en plus de chercher, dès la page d'accueil, dans différents modules, représentés par des onglets. Limités généralement à des critères linguistiques (web mondial / web francophone), les modules de recherche ne cessent pourtant de s'enrichir et de se diversifier, comme le montre l'exemple de Google. Il s'agit ici de repérer quel(s) module(s) proposent en particulier les 3 moteurs généralistes, soit dès l'interface de recherche simple, soit dans la recherche avancée.

Le regroupement d'un ensemble de critères observés dans les interfaces de recherche permet de catégoriser les ressources sur lesquelles se fondent les moteurs :

- La langue et l'origine des ressources

Web mondial :
- le moteur indexe-t-il les ressources du web mondial, sans distinction de langues ?

Web francophone :
- le moteur indexe-t-il et propose-t-il spécifiquement les ressources du web francophone?

Web français :
- le moteur indexe-t-il et propose-t-il spécifiquement les ressources du web français, i.e. du domaine .fr ?

- La nature de l'information

Module d'images :
- le moteur indexe-t-il spécifiquement les images ?
> indiquer si possible le nombre d'images (volume de la base)

Vidéos :
- le moteur indexe-t-il des fichiers vidéos ? Existe-t-il pour cela un module spécifique, ou s'agit-il plutôt d'une possiblité de filtrage ?

Audios
- le moteur indexe-t-il des fichiers audios ? Existe-t-il pour cela un module spécifique, ou s'agit-il plutôt d'une possiblité de filtrage ?

- Le type de ressources internet

Forums :
- le moteur de recherche indexe-t-il spécifiquement les forums de discussion (newsgroups) ?

Annuaire :
- le moteur donne-t-il accès aux ressources d'un annuaire thématique (Open Directory, Guide Yahoo...) ?

Weblogs :
- le moteur de recherche indexe-t-il spécifiquement les weblogs ?

Fils RSS :
- le moteur permet-il d'accéder à des flux RSS ?

- La nature du contenu

Littérature scientifique :
- le moteur propose-t-il un module d'accès à la littérature scientifique (articles de revues spécialisées, rapports de recherche...)?

Actualités :
- le moteur propose-t-il, de manière spécifique, des ressources de la presse quotidienne et généraliste (dépêches, articles, revues de presse...) ?

Dictionnaires
- le moteur propose-t-il la recherche dans des ressources de type dictionnaire, ou dans un dictionnaire en particulier, permettant ainsi de récupérer des définitions des termes de recherche ?

Encyclopédies
- le moteur propose-t-il la recherche dans des ressources de type encyclopédie, ou dans une encyclpoédie en particulier ?

Images satellites
- Peut-on avec le moteur accéder à des images satellites, et quelles possibilités donne-t-il de traiter ces images ?

Recherches spécialisées
- Peut-on avec le moteur à un ensemble de ressources spécialisées (par exemple disciplinaires, ou de presse, ou multimédias...) ?

- Le type de support

Bases de données
Le moteur donne-t-il accès à des bases de données (gratuites / payantes)et ainsi à des ressources du web invisible ?

Livres
Le moteur permet-il de rechercher des monographies, dans une interface distincte et avec quelles fonctionnalités ?

Catalogues
Le moteur propose-t-il un accès à des catalogues de bibliothèques ou de fonds documentaires divers, privilégiant ainsi l'accès au web invisible ?

- Les droits d'utilisation (Licences)

En particulier, les pages créées sour Creative Commons.

- Les services proposés

Géocalisation
Le moteur propose-t-il des ressources localisées (plan) ?

Produits / Catalogues de produits
Le moteur donne-t-il accès à une recherche de produits commerciaux ?

Coordonnées téléphoniques
Le moteur permet-il la recherche de coordonnées téléphoniques d'une personne ?

Questions / Réponses
Le moteur propose-t-il un service de questions / réponses à l'utilisateur ?

Autres
autres types de modules spéficiques proposés ?

⇒ Pour les moteurs Google Scholar et In-Extenso, proposant des ressources spécialisées, on tentera d'identifier plus précisément ces ressources, en particulier selon :

- les domaines scientifiques = secteurs disciplinaires
- l'origine des ressources = dépôts d'archives ouvertes, sites web, revues numérisées et ressources d'éditeurs, ressources universitaires
- la nature des documents = articles scientifiques, ouvrages, thèses, rapports, catalogues de bibliothèques

 haut de page


Formats de fichiers spécifiques

Dans les premiers temps du web, les moteurs de recherche n'indexaient strictement que les pages web, i.e. les fichiers HTML. Peu à peu, ils ont collecté et indexé d'autres formats de fichiers, Google montrant la voie dans ce domaine. Aujourd'hui, autant que le nombre, c'est la nature des fichiers indexés, la rareté de certains formats, qui fait la différence entre les moteurs (par exemple les fichiers liés à des flux RSS).

Il s'agit donc ici de recenser les formats de fichiers précis indexés par les moteurs du panel :

PDF (Portable Document Format)

DOC (fichiers Word)

PPT (Power Point)

XLS (Excel)

TXT (Texte)

RTF (Rich Text Format)

PS (Post Script)

RSS / XML

WPD (Corel Word Perfect)

SWF (Flash Macromedia)

GIF

JPG

MP3

Autres

 haut de page


Nombre de langues proposées

- le moteur indexe des documents de combien de langues différentes ?

haut de page