Gestion des résultats

Principes théoriques : rappels

Comparaison : Classement et traitement des résultats

Comparaison : Présentation des résultats

Exemples de requête pour la comparaison des pages de résultats


Principes théoriques : rappels

Principe :

*Les moteurs de recherche affichent des pages de résultats (évolution : listes / cartes) présentant des zones différenciées correspondant aux divers types d'information liés aux résultats des requêtes.

*Chaque résultat ou référence affiche une présentation normalisée comprenant différents éléments permettant de décrire la page web donnée en résultat. Ces éléments sont variables d'un moteur à l'autre et peuvent ou non être paramétrés.

*Les moteurs de recherche mettent en oeuvre des méthodes de tri automatique des résultats, qui sont différentes d'un outil à l'autre = notion de pertinence, de relevance ranking.

*L'objectif du classement étant d'afficher dans les 10 à 20 premières réponses les documents qui sont censés être les plus pertinents.

Méthodes de tri / 3 grandes méthodes :

- Le tri par pertinence (cf. wais) = calcul d'un score pour chaque réponse, en fonction de 5 grands critères :

1. la place du mot dans le document : le poids du mot est plus important s'il est situé dans le titre et le début du texte, ou si le mot est en majuscules.

2. la fréquence d'occurrence dans un document par rapport à la taille du document (pour un même nombre d'occurrences, le document le plus petit est privilégié).

3. le poids d'un mot dans l'ensemble de la base (mots peu fréquents favorisés, mots vides sous-évalués ou éliminés).

4. la correspondance d'expression : la similarité entre l'expression de la question et l'expression correspondante dans le document donne le poids le plus grand.

5. la proximité des termes de la requête entre eux dans le document : à une plus grande proximité correspond un poids plus important.

Repris par les moteurs de recherche à partir de 1994.
Méthode utilisée par Altavista, Ecila, Fast, Hotbot, inktomi, Lokace, Voila...

Les balises méta, peu utilisées, sont encore, malgré leur enjeu, peu prises en compte dans le calcul des scores.

Problèmes liés à cette technique : spamming (répétition des mots importants dans l'en-tête ou dans le texte, en blanc sur fond blanc) pour influer sur le classement. D'où : élimination de ces pages par les moteurs.

- Le tri par popularité : méthodes indépendantes du contenu du document.

1. la méthode basée sur la co-citation

cf. Google : classe les pages grâce à une combinaison de plusieurs facteurs, notamment celui nommé PageRank = utilise le nombre de liens pointant sur les pages + l'importance des sites pointant vers les résultats de recherche.

Mais nouvelles pratiques de spamming : établissement de liens artificiels contre paiement + autre inconvénient : les pages récentes, donc encore inconnues ou bien les pages très spécialisées sont pénalisées.

2. la méthode basée sur la mesure d'audience

cf. DirectHit (depuis 1998) : tri des pages en fonction du nombre de visites qu'elles reçoivent. Analyse du comportement de l'internaute.
(fonctionne sur le site de directHit, mais travaille aussi avec de nombreux moteurs de recherche comme Hotbot ouLookSmart).
Evite le spamming mais pénalise les pages récentes.

- Le tri par calcul dynamique de catégories : sur la base des méthodes de clustering ou d'agrégation (cf. bibliométrie, années 80) de catégories prédéfinies et repérées automatiquement.

La tendance actuelle est de mixer les différentes approches.

Modes de représentation des résultats :

sous forme de liste de résultats (moteurs classiques)

de manière mixte, avec des listes de resultats et une représentation graphique ou une organisation par dossiers critériés

sous forme de cartes (métamoteurs innovants comme Kartoo et Mapstan)

 haut de page


Comparaison : Classement et traitement des résultats

⇒ Explicitation des critères :

- Classement des résultats

Tri des résultats
> Possibilité de choisir entre classement des réponses par pertinence (décroissante), par taille, URL, date...

Affichage de la pondération
> Calcul d'un score de pertinence (par ordre décroissant) des pages web données en réponses.
> Option de pondération manuelle par fenêtre de saisie complémentaire.

Distinction claire entre les résultats automatiques et les résultats issus de liens sponsorisés.
Lorsqu'il y a des liens commerciaux, comment s'affichent-ils par rapport aux liens générés automatiquement (séparation marquée) ?

- Affinement de la requête

Affinement de la requête dans le lot de résultats
> Possibilité à partir de la liste de résultats obtenus, d'affiner la recherche en rajoutant des mots clés ("recherche dans les résultats").

Voir les résultats d'un site
> Limitation a posteriori pour un thème de requête, aux résutats d'un site en particulier. Voir toules réponses pour ce site ou quelques unes ou une seule (possiblités de paramétrage)

Propositions de pages similaires à partir de la liste de résultats
> Récupération à partir de la liste de résultats affichée, de documents web liés à la page en question.
> Algorithme analysant les réponses retrouvées et les adresses des sites, et proposant des sites partageant la même thématique, le même profil, des contenus analogues.

Classification a priori
> Liens sur les catégories d'un guide ou d'un annuaire utilisé conjointement au moteur.
> Possibilité de reformuler la requête par le biais des catégories.

Proposition de mots-clés, de termes associés
> Suggestion de termes de requêtes voisins, liés, plus larges, plus spécifiques, à partir desquels relancer la requête.

Clusterisation / Liste de mots clés
> Lorsque la requête est traitée, des calculs statistiques sont effectués pour déterminer une série de mots clés en lien direct avec le ou les termes de la recherche.
> Permet de reformuler et de cibler la requête en utilisant ces mots clés en complément de la requête initiale (cf. Exalead).

Affinement selon la localisation des sites
> A partir de la liste de résultats, possibilité de limiter la requête pour retrouver des sites d'un continent, d'un pays, d'une région, d'un département, voire d'une ville en particulier.

Affinement selon le format des documents
> A partir de la liste des résultats, possibilité de limiter la requête pour retrouver des documents correspondant au sujet, mais dans une format spécifique.

 haut de page


Comparaison : Présentation des résultats

⇒ Explicitation des critères :

- Aspects de la page de résultats

Affichage clair de la liste de résultats
> présentation sous forme de liste
> bonne répartition entre les différentes zones de la page de résultats (fenêtre de requête, barre d'état, références...)
> bonne lecture des références : termes de la recherche mis en valeur dans le texte de la référence (en gras), aspects graphiques...

Diversité de la présentation des résultats
> possibilité de présentation des résultats sous différentes formes : liste, carte/graphe, arborescence ...

Aperçu graphique des documents trouvés
> possibilité d'afficher pour chaque résultat un aperçu du site correspondant

- Paramétrage pour l'affichage des résultats

Choix du nombre de références par page
> Possibilité de paramétrer le nombre de résultats à afficher sur une page : soit par l'intermédiaire d'une page de préférences proposant différents paramétrages, soit par l'intermédiaires d'un menu déroulant sur l'interface de recherche elle-même (options 10 - 15 - 20 - 25 - 30 - 50 - 100... résultats par pages, variables selon les moteurs).

Ouverture des résultats dans une nouvelle fenêtre
> Option pour l'affichage de la liste des résultats dans une fenêtre indépendante qui se superpose à la précédente (meilleure visibilité et facilités d'exploitation des résultats).

Possibilité d'affichage d'une page par site
> possibilité ou non de regrouper les résultats par site = une page représentant un site, plutôt que d'afficher les différente spages d'un même site; permet d'avoir une vision plus rapide de l'ensemble des sites répondant à la question.
> Dans certains cas, affichage de l'ensemble des pages, mais pour les pages secondaires d'un même site, retrait dans la page de résultats sous la page principale d'un site.

Configuration du format d'affichage
> Possibilité ou non de choisir l'affichage d'une référence détaillée ou réduite en indiquant les éléments que l'on veut voir figurer dans les références de la liste de résultats : seulement titre, URL, etc. ou informations complémentaires comme taille du fichier, date... (ex : format réduit pour une évaluation rapide de la pertinence à partir des titres, ou version détaillée des résultats).

Lien direct au(x) résultat(s) le(s) plus pertinent(s)
> Possibilité de privilégier dans l'affichage les résultats considérés comme les plus pertinents.
> Possibilité d'aller directement sur le site jugé le plus pertinent par rapport à la requête.

- Description des documents retrouvés

Affichage des différentes zones permettant de caractériser un document donné en réponse.

Titre du site (en lien)
> lorsqu'il y en a un (sinon URL par exemple).

URL
> Mention de l'adresse du document.

Date
> Date de dernière mise à jour mentionnée dans le résultat.

Langue du document
> Précision de la langue du document web retrouvé par la requête.

Taille du fichier
> Indication (en Ko) du poids prévisible du fichier web retrouvé

Extrait / résumé du document
> Texte extrait de la page et permettant de mieux appréfier la correspondance du document web avec la requête (question des résumés automatiques).

Catégorie
> Dans le cas où le moteur prend également en compte des résultats issus d'un répertoire : affiche la catégorie à laquelle se référe le document.

Pages en cache
> Dans les résultats, lien vers les pages web (correspondant aux réponses) mémorisées telles qu'elles étaient lors du dernier passage du moteur.
> Avantage : en cas d'indisponibilité du site.

Fenêtre de visualisation du document dans le résultat.
> d'ordinaire pour afficher le document web, clic sur le lien et la page s'ouvre sur l'adresse correspondante (on n'est plus dans la liste de résultats).
> cette option permet en revanche d'afficher une petite fenêtre présentant un extrait de la page juste sous la référence.

Liens d'orientation à partir du résultat :
> vers les citations de la ressource
> vers des articles
> vers un catalogue collectif de bibliothèques
> vers une bibliothèque précise

 haut de page


Exemples de requête pour la comparaison des pages de résultats

Examiner et comparer les modalités de présentation des résultats pour les requêtes suivantes :

- La pertinence des moteurs de recherche

- Les agents intelligents

- Les archives ouvertes pour la communication scientifique

 haut de page