Le traitement et l'exploitation des résultats


Quelques notions sur le traitement des résultats

Présentation des critères :

5.1 Fonctions générales

5.2 Réseaux sémantiques

5.3 Clustérisation

5.4 Analyse de contenu

Grille de description des modalités de traitement des résultats

 


Quelques notions sur le traitement des résultats

Les métamoteurs n'ont pas de module de collecte, ni de module d'indexation et ils ont des modules de requête généralement (et nécessairement) plus pauvres que ceux des moteurs de recherche, puisqu'ils sont obligés de s'adapter aux fonctionnalités propres à chaque moteur.

En revanche, ils ont pu développer leur véritable spécificité dans le traitement, l'exploitation et la présentation des résultats. Il est donc assez logique que ce soit là le lieu des innovations les plus importantes et les plus originales.
La courte et riche histoire des métamoteurs illustre bien les progrès accomplis :
- ceux-ci se sont portés d'abord sur le classement des résultats (cf la partie Classement), avec l'élimination, presque généralisée, des doublons et la présentation de listes unifiées et synthétisées de résultats, innovation acquise sur la majorité des métamoteurs à la fin des années 90 ;
- puis, à partir de 2001, plusieurs métamoteurs ont innové dans les enrichissements apportés à l'exploitation de ces résultats : la présentation cartographique, les possibilités d'affinement des requêtes, la clustérisation...
I
l devient difficile d'obtenir aujourd'hui une vision complète et actualisée de toutes les innovations concernant les techniques d'exploitation, de cartographie et d'analyse des résultats.
 

En plus de quelques fonctions générales, ou transversales, que nous avons regroupées, il nous a paru intéressant de distinguer au moins trois types de techniques de traitement des résultats, incarnées dans des métamoteurs différents, et qui constituent actuellement autant de voies spécifiques de développement des outils de recherche :
- la cartographie des résultats
- la clustérisation
- l'analyse de contenu

  • les techniques de cartographie des résultats :
    développées notamment sur deux métamoteurs français, apparus en 2001, Kartoo et MapStan, les techniques de présentation graphique restent encore très originales dans le monde de la recherche d'information sur Internet (aucun moteur de recherche, à notre connaissance, n'utilise ces sortes de réseaux sémantiques pour présenter ses résultats).
    La présentation cartographique, issue en large part de logiciels scientométriques fondés sur la technique dite des "mots-associés" (calcul des co-occurrences de mots dans un corpus de textes), donne à voir, sur ces métamoteurs, les résultats d'une requête, sous la forme de réseaux de noeuds et de liens : les noeuds étant des sites web (ou des ensembles de sites) et les liens les mots-clés de requêtes communes à deux sites. Il s'agit de montrer, sous forme graphique, des liens possibles, porteurs de sens, entre plusieurs sites web.

     
  • les techniques de clustérisation ou de catégorisation :
    C'est l'originalité du métamoteur Vivisimo, que d'avoir inauguré le classement automatique des résultats dans des catégories, appelées clusters, fondées sur la similarité et la proximité des thèmes et des mots-clés. Une requête sur Vivisimo permet ainsi d'obtenir, outre une liste unifiée de résultats, un ensemble de dossiers, représentant des catégories, correspondant à ces résultats : la navigation est dès lors facilitée par les possibilités d'affiner la recherche, en précisant au fur et à mesure les thèmes demandés.
    *** A noter : le moteur de recherche Exalead utilise des techniques de classement et de traitement des résultats très proches, fondées également sur une catégorisation automatique des résultats, effectuée en temps réel.

  • Les techniques d'analyse de contenu :
    Certains métamoteurs, comme SurfWax, ont développé récemment des innovations importantes dans le traitement de l'information (cf la fonction SiteSnaps), fondées sur les techniques d'analyse de contenu.
    Pour chaque résultat, SurfWax offre la possibilité de consulter une véritable fiche de synthèse de la page web, fournissant :
    - l'URL complète de la page
    - l'analyse statistique de la page : nombre de liens, d'images et de mots contenus dans la page web
    - lorsqu'il existe, le résumé élaboré par l'auteur (Author summary) et disponible dans les métadonnées
    - l'analyse du contexte de la requête (matched in context) : surlignage des termes de requête dans toutes les phrases où ils apparaissent
    - les principaux thèmes de la page (Key Points) : analyse des phrases résumant le contenu général de la page
    - des possibilités de nouvelles requêtes sur un résultat (Sites FocusWord) : possibilité de regrouper des mots-clés issus de la page web et de les choisir pour une nouvelle requête

     

*** Remarque sur ces techniques de traitement et d'exploitation des résultats :
il semble bien que ces trois techniques (cartographie, clustérisation, analyse de contenu) soient généralement exclusives les unes des autres : sur notre échantillon de métamoteurs, seul MapStan combinerait la cartographie des résultats et quelques fonctionnalités d'analyse de contenu. Et à notre connaissance, il n'existerait pas, actuellement, de métamoteur combinant véritablement ces trois techniques.

 

 


Présentation des critères de comparaison

 

5.1 Fonctions générales

  • Affinement de la requête dans le lot de résultats
    Possibilité à partir de la liste de résultats obtenus, d'affiner la recherche en rajoutant des mots clés (option "Recherche dans les résultats", clustérisation...)
     
  • Proposition de mots-clés :
    Est-ce que le métamoteur propose des mots-clés, issus du lot de résultats et permettant d'affiner la recherche ?
     
  • Propositions de pages similaires à partir de la liste de résultats
    > Récupération à partir de la liste de résultats affichée, de documents web liés à la page en question.
    >Algorithme analysant les réponses retrouvées et les adresses des sites, et proposant des sites partageant la même thématique, le même profil, des contenus analogues.

     
  • Utilisation d'une classification a priori
    > Liens sur des catégories prédéfinies par le métamoteur
    > Possibilité de reformuler la requête par le biais de ces catégories.

     

5.2 Réseaux sémantiques : affichage cartographique des résultats

  • Représentation claire des liens sémantiques entre sites :
    > est-ce que la présentation cartographique des résultats permet de voir clairement l'ensemble des résultats et les liens entre les sites ?
    > la lecture des codes du réseau sémantique est-elle aisée ?

     
  • Richesse et finesse de la représentation des liens sémantiques
    > quel est le degré de finesse, de complexité de la représentation des liens sémantiques entre les sites ?

5.3 Clustérisation
> Lorsque la requête est traitée, des calculs statistiques sont effectués pour déterminer une série de mots clés en lien direct avec le ou les termes de la recherche.
> Permet de reformuler et de cibler la requête en utilisant ces mots clés en complément de la requête initiale (cf. Vivisimo).

  • Richesse des clusters :
    > les clusters proposés sont-ils abondants, pertinents ?
    > les clusters proposés ont-ils plusieurs niveaux d'arborescence ?

     
  • Clarté de la clustérisation :
    > la navigation à l'intérieur des clusters est-elle aisée ?

     
  • Possibilité d'affinement de la requête dans les clusters :
    > les possibilités d'affinement des requêtes à l'intérieur des clusters sont-elles nombreuses et faciles ?

     
  • Affichage du nombre de résultats par cluster :
    > est-ce que le nombre de résultats est indiqué pour chaque cluster (généralement entre parenthèses) ?

     
  • Possibilité d'étendre l'affichage des clusters :
    > est-ce que le métamoteur permet un affichage partiel, synthétique, des clusters, que l'on peut développer ou non ?

 

5.4 Analyse de contenu

  • Affinement sur le contenu d'un site :
    > le métamoteur offre-t-il la possibilité de faire des recherches ciblées sur le contenu d'un site (à partir d'autres mots-clés...) ?
     
  • Résumé de l'auteur de la page :
    > récupération et affichage du résumé fourni (éventuellement) par l'auteur d'une page web, dans les métadonnées de la page (balise Description)
     
  • Mise en contexte :
    >
    affichage de toutes les phrases de la page trouvée, contenant le (ou les) terme(s) de recherche saisi(s), mis en surbrillance : cette fonction, utilisée partiellement dans les moteurs de recherche (mise en gras des mots-clés dans le résumé automatique figurant sur la page de résultats), permet de situer le contexte des termes de requête.
     
  • Mise en évidence des termes-clés d'une page :
    > identification et extraction par le métamoteur des phrases ou des termes jugés les plus représentatifs du conteu de la page
     
  • Regroupement des termes-clés et affinement de la requête :
    > regroupement des termes-clés, issus de l'analyse d'un site, et possibilité de les ajouter à la requête initiale

 

 


GRILLE DE COMPARAISON DES METAMOTEURS

5/ Traitement et exploitation des résultats
 

 

CRITERES DE COMPARAISONIxquickKartooEz2findProfusionVivisimoSurfWax
5.1 Fonctions générales

 

 

 

 

 

 

 

 

 

 

 

 

Affinement de la requête dans le lot de résultats

 

 

 

 

 

 

 

 

 

 

 

 

Propositions de mots-clés 

 

 

 

 

 

 

 

 

 

 

Proposition de pages similaires

 

 

 

 

 

 

 

 

 

 

 

 

Utilisation d'une classification a priori

 

 

 

 

 

 

 

 

 

 

 

 

5.2 Réseaux sémantiques

 

 

 

 

 

 

 

 

 

 

 

 

Représentation claire des liens sémantiques

 

 

 

 

 

 

 

 

 

 

 

 

Richesse et finesse de la représentation des liens sémantiques

 

 

 

 

 

 

 

 

 

 

 

 

5.3 Clustérisation

 

 

 

 

 

 

 

 

 

 

 

 

Richesse des clusters

 

 

 

 

 

 

 

 

 

 

 

 

Clarté de la clustérisation  

 

 

 

 

 

 

 

 

 

 

 

 

Possibilité d'affinement de la requête dans les clusters

 

 

 

 

 

 

 

 

 

 

 

 

Affichage du nombre de résultats par cluster       
Possibilité d'étendre l'affichage des clusters      
5.4 Analyse de contenu

 

 

 

 

 

 

 

 

 

 

 

 

Affinement sur le contenu d'un site

 

 

 

 

 

 

 

 

 

 

 

 

Résumé de l'auteur de la page

 

 

 

 

 

 

 

 

 

 

 

 

Mise en contexte (mots-clés de recherche en surbrillance)

 

 

 

 

 

 

 

 

 

 

 

 

Mise en évidence des phrases-clés d'une page       
Regroupement des termes-clés et affinement de la requête       

 

Exemples de requêtes :
 

Examiner et comparer les modalités de présentation des résultats pour les requêtes suivantes :

- Les métamoteurs

- Les archives ouvertes pour la communication scientifique
 


Page revue et mise à jour le 20 avril 2005.
Ce support de formation peut être librement exploité, sous réserve de citer son origine.


© URFIST Bretagne-Pays de Loire, Avril 2004