Recherche simple et avancée

Options linguistiques

Options de recherche booléenne et de proximité

Options de filtrage

Options d'affinement et élargissement de la recherche


 Remarques sur les fonctionnalités de recherche et présentation du TP

Quelques remarques générales :

- sophistication, diversification des fonctionnalités de recherche : progrès considérables dans les fonctions offertes, dans les possibilités de filtrage des requêtes, etc.
- augmentation, amélioration et simplification des fonctions de recherche en "mode simple" : désormais, la page d'accueil de plusieurs moteurs offre la quasi-totalité des fonctions de recherche.
> la distinction entre "mode simple" et mode avancé" de recherche est devenue peu pertinente et nous l'avons abandonnée dans notre grille de comparaison.
- les progrès les plus importants : ils se situent dans les options de filtrage de l'information, dans les possibilités offertes aux internautes d'activer eux-mêmes différents filtres : géographiques, linguistiques, thématiques, etc.

Objectifs du TP :

- observer et tester (presque) toutes les fonctions de recherche présentes sur les moteurs, dès la page d'accueil et en mode avancé ;
- pouvoir comparer quelques moteurs de recherche, à partir de l'observation de leur formulaire et de leurs fonctions de recherche ;

- l'objectif général reste bien entendu une meilleure maîtrise des outils, à la fois pratique et intellectuelle.

Regroupement des fonctionnalités ou options de recherche en quatre grandes catégories :

- Options linguistiques
- Options de recherche booléenne et de proximité
- Options de filtrage des requêtes
- Options d'affinement et d'élargissement de la requête

Faire la comparaison des moteurs :

Google France (http://www.google.fr/)

Yahoo Recherche France (http://fr.search.yahoo.com/)

Exalead (http://www.exalead.fr/search)

Google Scholar (http://scholar.google.com/)

In-Extenso.org (http://www.in-extenso.org/)

Google fr Blogsearch (http://www.google.fr/blogsearch)

Technorati (http://www.technorati.com/)

Deux questions préalables :

Option de recherche avancée :

Existe-t-il une option de recherche avancée, disponible dès la page d'accueil ?

Options de paramétrage :

Existe-t-il la possibilité de paramétrer l'interface de requête ? (page Préférences)


Options linguistiques

Par options linguistiques, nous englobons toutes les fonctions, les opérateurs, les aides, etc. portant sur les aspects linguistiques de la recherche : aussi bien les règles de saisie (sensibilité à la casse...) que les procédés de traitement automatisé du langage naturel (TALN) mis en oeuvre par les moteurs (lemmatisation, etc.).

Distinction minuscules/majuscules :

> sensibilité à la casse : le moteur est-il ou non sensible à la différence minuscules/majuscules ?
Intérêt : distinction des noms propres et des noms communs.

Exemple : paris, PARIS, Paris

Distinction des acents, lettres accentuées :

> sensibilité à la casse : le moteur prend-il ou non les accents en compte ?
Intérêt : recherches plus fines sur les occurrences

Exemple : ferme/fermé, côte/coté

Prise en compte de l'ordre des mots :

> Indifférent ou non ?

Exemple : Paris Dakar ou Dakar Paris

Recherche d'une expression, de phrases :

- fonction liée à la présence implicite d'opérateur de proximité ; possibilité ou non de recherche sur des expressions ou des phrases exactes sur la page d'accueil ;

Exemple : taper, avec et sans guillemets, une expression ou une phrase quelconque (par ex., maladie de la vache folle) 

Troncature à droite disponible :

- possibilité ou non d'élargir les recherches à partir de la racine des mots
> Questions : disponibilité ou non de la troncature sur la page d'accueil ? option proposée par défaut ou non ? quelle étendue de la troncature (3 ou x caractères) ? quelle syntaxe (*, %) ?

Exemple : requêtes sur le préfixe biblio

Troncature centrale (masque) disponible :

- possibilité ou non de remplacer un mot entier, notamment dans une expression entre guillemets

Exemple : requête sur anglopho*e (pour trouver à la fois anglophone et anglophobe)

Suggestions de recherche :

> est-ce que le moteur de recherche propose des suggestions de recherche, à partir d'une requête : autres mots, synonymes, thèmes voisins, etc. ?

Exemple : avocat

Correction orthographique :

- présence ou non d'un dictionnaire pour vérifier l'orthographe des requêtes.
> correction automatique ou non des fautes de frappe ?

Exemple : biblitheque

Elimination des mots-vides ("stop-list") :

- procédé de traitement automatisé du langage naturel (TALN), de niveau morphologique : élimination des mots-vides (articles, prépositions, etc.), ou trop répandus sur le web (poids sémantique faible : http, .com, etc.)

Exemple : tour de France

Lemmatisation :

- parfois appelée stemming
- lemmatisation : procédé de traitement automatisé du langage naturel, de niveau lexical, consistant à ramener automatiquement les mots à leur racine, les pluriel au singulier, les verbes à l'infinitif...
Fonction à ne pas confondre avec la troncature.

Exemple : faire une recherche sur animaux :
le moteur renvoie-t-il également les pages contenant animal ?

Reconnaissance de groupes nominaux :

- procédé de traitement automatisé du langage naturel (TALN) de niveau syntaxique: reconnaissance d'expressions ou de groupes nominaux : accident du travail, téléphone mobile, Louis XV, etc.
> à ne pas confondre avec la recherche d'expressions entre guillemets, fondée sur la reconnaissance de chaînes de caractères.

Exemple : faire une recherche sur mission spatiale

Recherche multilingue :

- possibilité de traduire les termes de la requête dans plusieurs langues

Recherche phonétique :

- extension de la recherche à tous les mots, dont la prononciation ou l'écriture est proche des termes de la requête

Recherche de définitions :

- présence ou non d'un dictionnaire, disponible dès la page d'accueil

Recherche de synonymes :

- le moteur permet-il une recherche automatisée des synonymes ?
- exemple : recherche sur séisme, ou bien en anglais sur mind

 haut de page


Options de recherche booléenne et de proximité

Opérateur implicite ET :

> l'opérateur de recherche implicite est-il l'opérateur d'intersection (ET) ?
Enjeu important : très grande différence dans la pertinence des résultats selon l'opérateur utilisé

Exemple : bibliothèque numérique

Tous les opérateurs booléens disponibles :

> tous les opérateurs booléens sont-ils disponibles en recherche simple : ET (signe +, ou AND), OU (OR), SAUF (signe -, AND NOT) ?

Exemple : +bibliothèque +numérique, +bibliothèque -numérique

Opérateur de proximité NEAR disponible :

l'opérateur NEAR permet de rechercher les documents contenant les termes de la requête, situés à moins de 10 ou 20 mots de distance l'un de l'autre.

Exemple : bibliothèque NEAR numérique

Opérateur optionnel (OPT) disponible :

- L'opérateur OPT recherche un terme de façon optionnelle : les pages contenant le mot après OPT seront affichées en premier, mais les pages ne contenant pas ce mot ne seront pas éliminées.

Exemple : taper bibliothèque OPT numérique

Opérateur d'adjacence :

- l'opérateur ADJ ou NEXT recherche deux mots apparaissant l'un à côté de l'autre

Exemple : bibliothèque NEXT numérique

Parenthésage :

- possibilité d'élaborer des équations de recherche, avec des parenthèses

Exemple : recherche de documents sur les outils de recherche (les annuaires et moteurs, mais pas les métamoteurs) en France et au Canada :
- (outils de recherche AND NOT métamoteurs) AND (France OR Canada)

 haut de page


Options de filtrage

L'une des principales évolutions des fonctionnalités de recherche des moteurs est sans conteste l'augmentation et la diversification constantes des options de filtrage des requêtes.
Il existe plusieurs types de filtrages des requêtes : géographique, linguistique, par types de ressources, etc.
Plusieurs niveaux de filtrage, du plus large au plus précis : recherches sur les différentes parties du web, sur les types de documents, sur les documents eux-mêmes...

⇒ Options de filtrage en mode simple :

Filtrage géographique : web mondial, francophone, régional
> quelle possibilité de préciser l'origine géographique des ressources ?

Filtrage linguistique :
> quelle possibilité de choisir la langue des documents ?

Filtrage par types de ressources : images, vidéo, audio…
> quelle possibilité de faire des recherches multimédia ?

Filtrage des ressources Internet : Web, forums Usenet, Messagerie, Journaux, blogs…
> quelle possibilité de choisir la nature des ressources : pages web, messages de forums, courrier électronique, ressources de presse, blogs... ?

Filtrage par types de formats :
> quelle possibilité de chercher des documents d'un format de fichier spécifique : PDF, RTF, PPT, etc. ?

Filtrage par dates :
> quelle possibilité de préciser les dates de publication des pages web ?

Filtrage des champs de requête : titre, URL, domaine…
> quelle possibilité de requête sur des champs précis des pages web, dès la page d'accueil ?

Filtrage thématique : choix du domaine de recherche
> quelle possibilité de restreindre la recherche à un thème précis et prédéfini ?

Autres filtrages :
> existe-t-il d'autres possibilités de filtrage ? si oui, lesquelles ?  

Exemples :
- filtrage sur des zones géographiques précises
- filtrage sur les "niveaux de la page" : recherches dans les niveaux de l'index, à partir d'une adresse web

⇒ Options de filtrage en mode avancé :

Nombre d'options de choix de dates :
> quelles possibilités de choix dans une liste d'options ? documents parus depuis un mois, trois mois, six mois, etc. ?

Possibilité de recherche sur des périodes précises :
Exemple : recherche de documents sur XML parus entre le 1er juiller 1999 et le 1er janvier 2001

Recherche sur la date de publication d'une revue :
- par exemple sur Google Scholar, possibilité de rechercher un article par sa date de parution ?

Nombre de formats de fichiers accessibles :
- Syntaxe : filetype:, feature:
> étendu ? limité ? Relever le nombre des formats proposés.

Option de recherche sur les noms de domaine :
- Intérêt : permet de filtrer les recherches sur un domaine générique (par exemple .com, .edu, .org, etc) ou géographique (.fr, .ca) ; outil d'identification de l'information.
- Syntaxe : domain:
Exemple :
- recherche de documents sur la marée noire du Prestige, produits par les associations (domaine .org)

Option de recherche sur le n° IP :
Possibilité de rechercher un serveur par son n° IP
- Syntaxe : ip:

Option de recherche sur le nom de serveur :
Possibilité de limiter les recherches à un serveur précis.
- Syntaxe : host:
Exemple :
- recherche de toutes les pages web du site de l'Université de Rennes 2

Option de recherche sur les URL :
- Intérêt : recherche très précise d'un document
- Syntaxes possibles : url:, inurl:, allinurl:
Exemples :
- recherche de fichiers contenant les mots moteurs de recherche dans l'URL

Option de recherche sur les titres :
- Champ indexé : titre complet de la barre de titre d'une page web
- Syntaxe : title:, intitle:, allintitle:
Exemple : recherche de pages web contenant les termes moteurs de recherche dans le titre

Option de recherche sur le texte :
- Champ indexé : texte complet de la page, sauf l'URL, les hyperliens, les métadonnées
- Syntaxe : text:

Option de recherche sur les liens (adresse du lien) :
- Champ indexé : URL complète citée dans une page web
- Syntaxe : link:
Exemple : recherche de pages web citant le site de Rennes 2

Option de recherche sur les liens (contenu des mots hyperliés) :
- Champ indexé : l'expression ou le mot hyperlié, cad faisant l'objet d'un lien
- Syntaxe : anchor:, inanchor:, allinanchor:
Exemple : recherche de pages web comportant Université de Rennes 2 en lien

Option de recherche sur la localisation géographique des ressources :
- Recherche par ville, par région ou par pays
- Syntaxe possible : loc: ou location:

Option de recherche sur les flux RSS :
- possibilité de chercher des sites contenant des flux RSS
- syntaxe possible : feed:

Option de recherche sur l'auteur d'un livre ou d'un article :
- possibilité de chercher un document scientifique (ouvrage, article, thèse...), par son auteur
- syntaxe : author:

Option de recherche sur le titre d'une revue :
- possibilité de chercher une revue scientifique par son titre

Option de recherche sur des catégories thématiques :
- possibilité de chercher des ressources (scientifiques) selon des catégories ou des domaines disciplinaires

Option de recherche sur l'adresse des images :
- Champ indexé : mot dans l'adresse URL de l'image
- Syntaxe : image:
Exemple : recherche d'images de Gilles Deleuze

Option de recherche sur la taille des fichiers :
- quelle possibilité de chercher des fichiers selon leur taille en octets, i.e. leur volume ?

Option de recherche sur les métadonnées description et keyword :
> quelle possibilité d'interroger spécifiquement les métadonnées ?

Autres champs de recherche :
> quels sont les autres champs de recherche, propres à certains moteurs ?
Exemples :
- recherches sur les applets : syntaxe applet:
- recherche sur les correcteurs de mots (sur Google) : syntaxe spell:
- recherche sur les copies des pages web (Google) : syntaxe : cache:adresseURL

 haut de page


Options d'affinement et élargissement de la recherche

Quelles sont les possibilités d'affiner ou d'élargir les requêtes, avant l'obtention de résultats ?

⇒ Options d'affinement :

Recherche sur les pages similaires :
- champ indexé : adresse URL d'une page similaire
- syntaxe (Google) : related:adresse URL
> deux utilisations possibles du champ related :
- quelles sont les pages similaires à telle page trouvée (mais nécessité de connaître au préalable l'URL...) ?
- à l'inverse, est-ce que telle page sur tel sujet est considérée comme page similaire ?

Exemple : faire une recherche sur Google sur les bibliothèques virtuelles et chercher les pages similaires au premier résultat 

Option de recherche sur un site précis :
> quelle possibilité de chercher dans un site précis ?
- syntaxe (Google) : site:
Exemple : chercher les pages de l'Urfist sur le site de Rennes 2

⇒ Options d'élargissement :

Option de recherche sur d'autres parties du web :
- sur Google Scholar, possibilité d'élargir la recherche au web "visible"
- bouton WebSearch

Option de recherche sur des catalogues de bibliothèques :
- sur Google Scholar, possibilité d'élargir la recherche au catalogue collectif WorldCat de l'OCLC
- bouton Library Search


Quel bilan ?

On relève quelques disparités entre les moteurs de recherche, selon les fonctionnalités : certains moteurs sont plus performants dans les options linguistiques, d'autres dans le filtrage, ou dans l'affinement des requêtes ; la comparaison montre les orientations techniques des moteurs, qui ont des priorités différentes dans l'indexation et le traitement des requêtes.
Mais l'homogénéisation croissante des fonctions de recherche semble l'emporter sur les différences.

Ces critères sont-ils suffisants pour évaluer la pertinence d'un outil ?

Quel bilan de la comparaison des modes de recherche avancée ?
- quelles limites de ce type de description des moteurs ?


Exemples de questions de recherche complexes

Recherche de documents récents sur la pédagogie de l'information dans les universités, en français, disponibles en format Word ou PDF :

Mots-clés proposés et champs de recherche :

+"maîtrise de l'information" +pédagogie +université*

langue : français ou domain:fr

date : depuis 2003

filetype:.doc OU filetype:.pdf

Des textes, anglais et français, publiés en 2002 sur les aspects cognitifs de l'hypertexte et les nouvelles formes de lecture :

Mots-clés proposés et champs de recherche :

+hypertexte* +cognition

"pratiques de lecture" OU "formes de lecture" OU lecture

2002

Un support de cours français, sous Power Point, sur les enjeux de XML dans les bibliothèques

Des documents très récents sur la veille technologique dans le domaine des réseaux sans fil

Les documents publiés par l'ADBS sur la gestion des connaissances

Des statistiques récentes sur le taux de chômage des jeunes en Algérie

haut de page