La présentation des résultats des requêtes

La requête

Méthodes et classements des résultats


La requête : quelques rappels

Présupposés de la recherche par mot clé sur internet

Dans la recherche par le contenu, l'utilisateur ne dispose d'aucune référence ou information sur un sujet ; la recherche d'information sur internet dans des bases de texte intégral non structurées est une recherche contextuelle sur le contenu.  
Ce type de recherche repose sur l'appariement d'une question avec des documents ou des informations contenus dans une base, par l'intermédiaire de requêtes qui peuvent être de plusieurs types :

- thème ou descripteur
- mots du langage courant coordonnés par des opérateurs
- expression en langage naturel
- document entier utilisé comme exemple du sujet sur lequel on veut d'autres informations
- graphe de concepts

Notion de pertinence (relevance) :
indices utilisés = rappel / précision, bruit /silence.

Constituent le principal critère pour caractériser les performances des logiciels de recherche d'information.
Doit tenir compte toutefois du paramètre de nombre maximum de réponses imposé aux moteurs de recherche : le rappel dépend fortement de ce nombre.

Comparaison possible des performances des moteurs de recherche par des courbes précision-rappel.
la précision moyenne des logiciels actuels est de l'ordre de 20 à 30%.

Autre critère : efficacité = temps de réponse acceptable.

Types de requêtes des moteurs de recherche

La recherche d'information associe habituellement indexation et interrogation.

Problème sur internet :
Interrogations brutes à partir de mots du langage courant = beaucoup de bruit et de silence, se vérifie souvent avec les moteurs de recherche du web.

Recherche d'information comme processus itératif, mettant en oeuvre plusieurs requêtes successives permettant d'affiner les résultats rendus par le système = important sur internet (recherche simple sur Altavista).

  • Le langage des requêtes

Une syntaxe quasiment commune à la plupart des outils de recherche :

- Opérateurs booléens :
ET - OU - SAUF s'appliquent à la fois à la recherche de mots combinés dans le texte libre et à la recherche sur champs.
Nécessité de connaître l'opérateur par déaut qui s'applique sur chaque moteur (généralement le ET).

- Opérateurs numériques :
consiste sur les moteurs de recherche à prendre en compte la date de mise à jour du document (et non la date de publication d'un article par exemple)

- Opérateur de troncature: variante sur les mots

- Recherche d'une expression

Autres possibilités :

- Opérateurs sur le texte intégral : proximité, adjacence : nécessaires lorsque l'on recherche dans des documents en texte intégral

- Requêtes sur champs = variables selon les moteurs; en général sur le titre, sur l'URL, sur le nom de domaine.
Autres champs éventuels : le serveur, le texte des liens, les liens, les balises de métadonnées, etc.

- Requêtes à partir de prédétermination de concepts et de domaines

- Réponses comme bases de nouvelles questions
 

  • Les différents types de requête sur le web :

Requête par utilisation de mots-clés, issus du langage naturel (langage non contrôlé); éventuellement sur champs

Requêtes en langage naturel :
proposée par quelques moteurs de recherche : Askjeeves - InfoClic - partenariat Albert/FAST (AltaVisa supporte l'interrogation en langage naturel pour l'anglais = réalisation de traitements linguistiques du type : suppression de mots vides (articles, prépositions...) ;
- transformation des mots en leur racine par troncature; la lemmatisation (identification d'un mot par son lemme = forme non fléchie)
mais problème d'efficacité lié à la très grande hétérogénéité des documents du web.

Requête par similarité : utilisation de la nature hypertextuelle du web et requêtes sur des pages web jugées proches (par les liens de citations) d'une autre page

 haut de page


Méthodes et classements des résultats

Notion de pertinence :

Les résultats d'une requête sont classés par pertinence ou relevance ranking = système,qui est censé faire apparaître en premier lieu les résultats jugés les plus pertinents.
S'ajoute aussi la possibilité de générer (manuellement ou automatiquement) une nouvelle requête plus adaptée, plus fine : le "relevance feedback".

De nombreux développements technologiques ont été faits par les moteurs, visant à pouvoir juger de la pertinence des documents retrouvés, avec par exemple : l'attribution d'un poids aux documents et classement par pertinence décroissante, la classification et enfin la recherche par similarité où le document retrouvé peut être la source d'une nouvelle requête (Find Similar / Related Pages ou Search).

Développement par les moteurs de recherche de méthodes de tri automatique des résultats. Variété de ces méthodes.
 
Objectif du classement :

vise à afficher dans les 10 à 20 premières réponses les documents qui en principe répondent le mieux à la question.

⇒ Enjeu considérable des méthodes de classement, dans la recherche d'information, dans la visibilité des sites, etc. (se rappeler que près de 90 % des internautes ne consultent que la première page...)

     Trois grandes méthodes de classement :
Indice de pertinence
Indice de popularité
Classification automatique

1. Tri par pertinence / indice de pertinence

Mesure qui est fondée à la fois sur la fréquence d'apparition des termes de la requête dans la page et sur leurs localisations; cet indicateur est utilisé systématiquement par tous les moteurs de recherche

Origine = travaux de recherche de Robertson et Sparckjones et implémentation du système dans le logiciel d'indexation Wais (fin des années 80).

Définition = Affichage des résultats de la requête selon un ordre qui est déterminé par le calcul d'un score pour chaque réponse.

Différents critères d'estimation de la pertinence, retenus par les moteurs de recherche :

la fréquence d'occurrence du mot dans la base de données (poids d'un mot en fonction du nombre d'occurrences) :
Elimination ou sous-évaluation des mots-vides, pondération des mots rares ou peu fréquents...

la densité du mot : calculée en fonction du rapport entre l'occurrence du mot dans le document et la taille du document :

si deux documents ont la même occurrence pour le même mot, document plus petit sera favorisé en pondération

Exemple : si le mot "bibliothèque" apparaît 10 fois dans deux documents, l'un de trois pages, l'autre de 50 pages, le document de trois pages sera jugé plus pertinent

la position du mot dans le texte : pondération plus ou moins grande du mot selon sa position et sa typographie :

position dans le titre, le début, la fin du texte (Alta Vista, HotBot)

mot en majuscule ou en caractère gras à l'intérieur du texte (Google)

mot appartenant à une liste de mots contrôlés

la similarité des mots du document avec les termes de la requête :

correspondance exacte des mots : prise en compte de la casse (typographie, accents)

proximité des termes

ordre des mots : pris en compte ou non selon les moteurs

Exemple : sur les termes "France-Allemagne" :

si l'ordre des mots pris en compte : Allemagne-France donnera un résultat différent (Alta Vista, Google, Northern Light...)

si l'ordre des mots non pris en compte : Allemagne-France identique à France-Allemagne (HotBot, Lycos

Le degré de proximité des termes dans le document induit un poids plus élevé.

Utilisation de l'indice de pertinence :

- Efficacité avec les bases de donnés Wais (homogènes et peu volumineuses)
- Dans les moteurs de recherche à partir de 1994

Fait intéressant : Introduction des balises Meta dans le calcul du score : balises TITLE, META keywords et
META description. Mais en fait, peu de moteurs en tiennent vraiment compte.

Problème :

La méthode de tri par pertinence peut être détournée : répétition de mots importants dans l'en-tête ou dans le texte = spamming.  

La majorité des moteurs utilisent le tri par pertinence = AltaVista, Ecila, Excite, FAST, HotBot, Inktomi, Lokace, Voila...

2. Le tri par popularité / indice de popularité

Pour pallier les inconvénients du tri par pertinence, une autre méthode de classement a été développée par certains moteurs avec des principes totalement différents.

Méthode fondée sur la prise en compte, non plus du contenu, mais de la spécificité du Web : les hyperliens.
Les liens peuvent être considérés un peu comme des relations sémantiques : si une page fait un lien sur une autre, les deux abordent probablement la même thématique.

Et le nombre de liens pointant vers un site constitue un indice de popularité de celui-ci = tri par popularité.

Les pages web sont ordonnées selon leur notoriété. Ce principe est directement inspiré des recherches menées en scientométrie et principalement des travaux de Price et Garfield sur la pratique de la citation entre les articles scientifiques.
 Le tri par popularité recouvre 2 méthodes :

Méthode fondée sur la co-citation

Algorithme d’évaluation de pertinence fondé sur la nature même du web, cad son hypertextualité : algorithmes vont donc explorer les réseaux de documents et de liens qui relient les documents.
Méthode introduite par le moteur Google, lancé en 1998 à l'Université de Stanford : elle utilise le principe mettant en relation liens et popularité pour le calcul de "Relevance Ranking" et le classement des pages de résultats. Le classement des pages se fait par une combinaison de plusieurs facteurs dont le principal est le fameux "PageRank" (du nom de l'un des fondateurs de Google, Larry Page).

PageRank : les pages affichées en premier sont les pages référencées de nombreuses fois = celles auxquelles aboutissent de nombreux liens faits sur une page + importance des sites qui pointent vers les résultats de recherche.

Les poids des documents sont pré-calculés par cette méthode et se basent sur leur popularité par le système de liens.

Visibilité de la popularité par les fonctionnalités des moteurs de recherche : utilisation de la fonction link d'Altavista = link:www.sites.univ-rennes2.fr/page1 -host:www.sites.univ-rennes2.fr

Classement indépendant du contenu.

2 problèmes se posent :
- Certaines sociétés ont établi des liens artificiels contre paiement + problème de l'auto-citation

Pour contrer la pratique des liens artificiels, Google calcule un indice de popularité à double niveau : calcul également de l'IPP (indice de popularité de la page) des pages qui pointent sur les résultats de recherche = 0 dans le cas de liens artificiels.

- ce système donne la primauté aux point de vue dominants, aux sites d'influence et défavorise les pages récentes et encore inconnues + les pages au contenu très pointu, à public restreint.

Les formules exactes de tri par popularité varient selon les moteurs (AltaVista, Google, Voila...)

ex : Clever possède un algorithme fondé sur un principe analogue, mais encore plus sophistiqué, travaillant à partir des notions de sites et pages de référence (d'experts) et de sites et pages pivots (répertoires; notion de "pouvoir rayonnant"). Attribution de notes de référence et de notes de pivot.

La note de référence d'une page augmente lorsque cette page est pointée par de nombreux pivots aux notes élevées et inversement la note de pivot d'une page augmente si elle pointe vers de sites de référence aux notes élevées.

Méthode fondée sur la mesure d'audience

     cf : DirectHit (fondé en avril 98) propose de trier les pages en fonction du nombre de visites qu'elles reçoivent = indice de clic.

 = analyse du comportement de l'internaute lors de la recherche d'information et de l'utilisation du moteur de recherche; vise à trouver les pages les plus populaires.

Note quel lien a été cliqué et le rang de ce lien dans la page de résultats, calcule le temps mis par l'utilisateur pour revenir à la page de résultats, s'il y revient (sinon = document pertinent = meilleur classement pour les prochaines requêtes). Pénalise les pages récentes, mais évite le spamming.

Mémorisation dans sa base de données

DirectHit peut être interrogé directement sur son site, il alimente aussi les résultats des moteurs.

3. Tri par calcul dynamique de catégories

Méthode de clustering ou agrégation (proposée par Northern Light); développé en bibliométrie dans les années 80 et appliquée à des corpus documentaires pour la veille technologique. Actuellement, prise en compte par les outils de Text Mining; utilisation de catégories prédéfinies et de catégories repérées automatiquement.

Retour sur les techniques de classification et affinement de la requête

Affinement de la requête
De quoi s'agit-il ? 
Il arrive que les résultats d'une recherche soient nombreux, même si la requête est précise et correcte. Les moteurs de recherche ont développé plusieurs techniques permettant à l'utilisateur d'affiner sa requête initiale.

Classification automatique
= technique exploitée par certains moteurs de recherche pour organiser le lot de résultats de la recherche et donner alors la possibilité d'affiner ou d'étendre la requête.

Modalités : 
- affinement de fait de la question par sélection d'un cluster
- exploitation des propositions issues de requêtes d'autres internautes (ex : Altavista constitute une base de données des termes saisis par les internautes).

Deux types de classification possibles :

Les classifications a priori :
classement des éléments dans des classes connues a priori
=
"classification par apprentissage supervisé".
ex : catégories issues d'un annuaire (fonction Fast Topic d'AllTheWeb, à partir de l'annuaire Open Directory), catégories Yahoo pour Google...
Voila propose en recherche approfondie la possibilité de faire sa requête en la limitant à un ou plus domaines prédéfinis.

Les classifications a posteriori :
regroupement a posteriori, sur la base de similarités trouvées dans tout ou partie du document
, non définies au départ (création de groupes homogènes dans le corpus); ensuite affectation des documents aux groupes créés, avec un tri par pertinence au sein du groupe
= clustering ou "apprentissage non supervisé"
Détermination d'une relation de ressemblance, de similitude entre documents, fondée sur des caractéristiques d'ordre statistique et sémantique; détermination du terme qui donnera son nom au cluster.

Intérêt pour la recherche : aide à la sélection d’un mot-résultat, aide à l’élimination des corrélations inintéressantes, évidentes ou connues ; suggestion d’idées et de pistes nouvelles
Ces fonctionnalités peuvent être complétées par une représentation graphique.

cf Exalead : l'un des premiers moteurs de recherche à développer cette technique de classification a posteriori.

⇒ Une analogie : pour mieux comprendre la différence entre les deux types de classifications, on peut faire l'analogie avec le classement d'un lot de livres :

dans un classement a priori : les livres seront classés selon un plan de classement pré-établi, par ex. la Classification CDU ou Dewey. Il s'agit de référer les caractéristiques du corpus à des rubriques pré-existantes.

dans un classement a posteriori : au lieu de classer les livres selon un plan de classement, on va déterminer les thèmes traités et on fait le classement des livres entre eux, par comparaison de leurs thèmes : le classement est fondé sur les caractéristiques mêmes du corpus documentaire

Présentation des résultats de la requête
Evolution dans l'organisation et le contenu des pages de résultats (listes).

La page de résultats présente traditionnellement différentes zones correspondant à différents types d'information :

rappel de la requête

liste des résultats

résultats d'origine, obtenus automatiquement

résultats sponsorisés

type d'information

...

catégories d'un annuaire complémentaire


Les moteurs de recherche se sont enrichis en fonctionnalités, également en ce qui concerne les résultats des requêtes :

sous-partie du module de recherche = présentation des résultats (tri, classement, affinement de la requête, catégorisation)

nouveau composant en aval de la chaîne : le module d'exploitation des résultats avec les outils de cartographie et de navigation.

haut de page