L'indexation, la constitution des index

Rappel du principe de constitution des index

La taille de l'index

Les objets de l'indexation

La nature des ressources indexées

Les méthodes d'indexation et de traitement du langage naturel


Rappel du principe de constitution des index

A partir des données collectées par le robot explorateur (spider), le module indexeur construit un index général de recherche des données.

L'index d'un moteur constitue sa base de données ; il est constitué :

- d'un index principal, contenant les millions (voire les milliards) de pages web et de documents capturés par le robot collecteur
- de fichiers inverses, contenant tous les termes d'accès, renvoyant aux pages web.

Rappel du principe des index de recherche :

Fichiers ordonnés, contenant les caractéristiques des documents et les reliant aux documents traitant des mêmes sujets. L'indexation automatisée repose sur la notion de fichier inverse :

- Fichier inverse :
fichier organisé par ordre alphabétique de descripteurs, de mots-clés ou de mots, derrière lesquels figurent les numéros des notices possédant ces termes. Ce fichier est " inversé " par rapport au " fichier direct " (ou principal.) Il est lu en accès direct sur les mots-clés de la question.

Dans les systèmes d'index en texte intégral, les fichiers inverses sont des fichiers contenant les mots du texte, classés alphabétiquement, avec l’adresse précise de leur occurrence dans le texte.
Dans les fichiers inverses des moteurs de recherche, chaque terme pointe vers les URL des pages qui contiennent le terme.

Variations de l'indexation selon les moteurs et les règles suivies :

Quatre éléments essentiels à prendre en compte pour le module d'indexation :

- La taille de l'index : nombre de documents indexés

- Les objets de l'indexation : qu'est-ce qui est indexé (la totalité, des parties du document...)

- La nature des ressources indexées : format, texte, image...

- Les méthodes d'indexation et de traitement des données : traitement linguistique, niveau d'analyse, utilisation des outils de TALN...

Mises à jour périodiques. Mise à jour de l'ensemble de leur index = plusieurs semaines (et va en augmentant compte tenu de l'évolution du web).

haut de page


La taille de l'index

Nombre de pages dans la base de documents du moteur de recherche.
Très variable selon les moteurs : de quelques centaines de milliers de documents à plusieurs milliards.

Aux débuts des premiers moteurs, comme Alta Vista, existait un objectif de couverture exhaustive du web : 60 millions de documents indexés par Alta Vista en juin 97.
Aujourd'hui, la moitié à peine (voire un tiers) du web serait indexée par les 8 plus grands moteurs.

- Course à l’index le plus grand :
course des outils au plus grand index, notamment entre All The Web et Google.

Exemple des bases de données de trois grands moteurs (nombre de pages web indexées) :

MoteursGoogleAllTheWebAlta Vista
Octobre 2000500 millions575 millions350 millions
Décembre 20013 milliards630 millions397 millions
Janvier 20033,33 milliards2,106 milliards1,689 milliards
Août 2003 3,1 milliards 
Janvier 20044 milliards  
Novembre 2004annonce 8 milliards  

haut de page


Les objets de l'indexation

Quelles parties des pages web (ou des documents d'autres formats) sont indexées par les modules d'index des moteurs de recherche ? Tous les moteurs n'indexent pas les mêmes parties d'un document, ni de la même manière.
Différents champs sont pris en compte lors de l'indexation :

Le titre des pages web :

Titre d'une page web, proposé par le concepteur du site.

Situé entre balises <TITLE> et </TITLE>. 

Importance du titre :

- titre d'une page web toujours affiché sur le navigateur.
- titre généralement affiché sur la page de résultats du moteur
- 1er critère de pertinence pour la plupart des moteurs
- longueur du titre prise en compte variable selon les moteurs
- éviter mots vides

Moteurs concernés : tous les moteurs de recherche indexent le titre

⇒  Les métadonnées :

Balises de métadonnées, donnant une information sur le document (données sur les données)

⇒ A noter :

- les balises méta ne sont pas visibles par l'utilisateur, mais sont dans le code source de la page. Elles ne sont pas prises en compte par les annuaires thématique.
- peu de documents du web contiendraient les balises META : 20 à 30 % des pages web
- importance des balises META pour le référencement d'un site web par les moteurs de recherche
- problème et enjeu du "spamming", ennemi n° 1 des moteurs.

Deux grands types de métadonnées :

Balises META "Description" :
<META NAME="description" CONTENT="......">
Elles permettent de décrire le contenu d'une page, sous forme de résumé.

Indexation de la Balise Méta Description : très variable selon les moteurs.
Description affichée par le moteur dans la page de résultats, pour donner un aperçu du contenu.
Longueur de la balise souvent limitée : 150-200 caractères
Lorsqu'une page web ne contient pas de balise META Description, certains moteurs affichent les premiers mots visibles sur la page
Mais l'affichage de la balise Description est variable.

Balises META "Keyword" :
<META NAME="keywords" CONTENT="......">

Permettent de caractériser le document par un ou plusieurs mots-clés, pris en compte ou non par les moteurs de recherche
Usage des balises Keywords : 100 mots-clés, ou 1000 caractères. Au-delà, balise considérée comme du spamming et éventuellement pénalisée.
 

Le corps du texte :

Corps "visible" de la page.

Aujourd'hui, la plupart des grands moteurs de recherche indexent le texte des pages web, de manière limitée (jusqu'à une certaine taille du texte : cf plus haut)

Quelques variantes dans l'indexation du texte :

·        pages courtes mieux indexées que pages longues (HotBot...)

·        indexation égale du texte entier (Google)

Les URL :

URL considérée comme un champ de recherche interrogable

Presque tous les moteurs aujourd'hui indexent l'URL des pages web

⇒ Les frames (cadres) :

Frames : pages web divisées en cadres (cf cette page), constituées :

- d'un fichier "mère" : sert uniquement à la description des zones. Souvent appelé cadre.htm, ou frame.htm. Fichier vide de données
- de fichiers "fille" : cadre du haut, de gauche et central.

Les frames sont souvent un obstacle pour la collecte des données par le spider.

Généralement non collectées et non indexées par les moteurs de recherche.

Quatre solutions pour les moteurs :

·        Page web avec frames ignorée : aucune indexation ; situation la plus répandue

·        Indexation seulement du fichier "mère" et ignorance des fichiers "filles" ; situation assez courante ;

Résultat : le cadre vide est indexé seul et non les données contenues

·        Indexation des fichiers "mère" et "filles" comme des fichiers distincts, sans indexation des liens entre eux.

 

Résultat : perte du contexte des frames et affichage des fichiers isolément

·        Indexation des fichiers "mère" et "fille" avec leurs liens : solution idéale, respectant l'organisation des frames. MAIS pratiquement aucun moteur ne peut faire cette indexation.
 

TABLEAU RECAPITULATIF DES CHAMPS INDEXES
SUR QUELQUES UNS DES PRINCIPAUX MOTEURS
(Alta Vista, HotBot, InfoSeek, Lycos, Northern Light,
Google, AlltheWeb, Voilà)

 

ChampsMoteurs indexant le champMoteurs n'indexant pas le champ
Titre des pages webTous 
Balises <META Description>

Alta Vista, HotBot, InfoSeek, Voilà

Lycos Northern Light, Google, AlltheWeb

Balises <META Keywords>Alta Vista, HotBot, InfoSeek, VoilàLycos Northern Light, Google, AlltheWeb
Corps du texteTous (avec des variantes) 
URLPresque tousLycos, AllTheWeb
Frames

-seulement le fichier "mère" : Alta Vista, InfoSeek, AlltheWeb, Voilà ; parfois : HotBot, Lycos, Google
- fichiers "mère" et "filles" indexés indépendamment :
Alta Vista, Northern Light ; parfois : InfoSeek, Google, AlltheWeb, Voilà 

HotBot, Lycos

haut de page


 La nature des ressources indexées

Prédominance des documents textuels dans l'indexation par les moteurs de recherche

Indexation des documents images et sonores :

- Tendance importante, depuis quelques années : 330 millions d'images sur Google en 2002

- Mais indexation du texte descriptif des images et des sons : légende, URL, titre...

- Pas encore d'indexation du contenu visuel ou sonore sur le web : travaux encore limités à des moteurs de recherche internes à des entreprises ou des laboratoires

- Nombreux problèmes juridiques

 haut de page


Les méthodes d'indexation et de traitement du langage naturel

Analyse automatique et recherche d'information sur le langage naturel sont complexes en raison, à la fois des caractéristiques du langage naturel et des caractéristiques propres de la recherche d'information

Rappel des difficultés liées au langage naturel :

- éléments de discours implicite
- synonymie, redondance et glissements de sens
- sens de base des termes et rôles complémentaires
- problèmes posés par les groupes de mots ou mots composés

Difficultés propres à la recherche d'informations :

- Supports des documents
- Formats de représentation des textes
- Méthodes d'interrogation
- Généralité ou précision de la question
- Profondeur de l'analyse ou de l'indexation
- Explosion combinatoire engendrée par la recherche

Traitement linguistique du langage naturel par les moteurs de recherche :

Analyse morphologique :

- l'indexation utilisée par les moteurs de recherche correspond généralement au niveau le plus bas d'indexation possible : l'analyse morphologique par simple inversion du texte

- L'indexation est faite par simple extraction des mots et inversion, éventuellement avec des index par changement de casse et suppression des accents

- Utilisation de listes de mots vides (stopwords ou stop lists) au moment de l'indexation : encore peu fréquente selon les moteurs :
> existe sur Alta Vista et Google, qui éliminent les mots trop fréquents ou vides dans leur index.

- les listes de mots-vides sont davantage utilisées dans les module de requête, pour traiter les requêtes mal formulées.

Certains affichent l'équivalent de mots vides = mots très fréquents (dans le document, pas dans la langue), ou les mots d'un ou deux caractères, dans quelques cas uniquement les mots grammaticaux de la langue anglaise.

Analyse lexicale :

L'analyse lexicale est encore peu répandue sur le web :

- lemmatisation souvent absente : sauf sur AOL Search, Direct Hit, HotBot, Mirago, qui prennent en compte la racinisation (le stemming : accès possible aux variations morphologiques des mots

- lemmatisation parfois simulée au moment de la requête par la possibilité de troncature droite, sur les terminaisons de mots (avec bruit possible).

- quelques procédés de traitement lexical existent, mais plutôt sur les modules de recherche : par exemple, correction orthographique, reconnaissance des noms propres, identification de termes complexes, lexique de formes composées ...
>> mais concernent l'indexation des requêtes et non des textes eux-mêmes.

A noter :
On parle parfois de stemming ou de lemmatisation pour la troncature droite, couplée à un ensemble sommaire de règles permettant de reconnaître quelques terminaisons régulières communes (pour l'anglais), mais c'est un abus de langage ; la troncature est le plus souvent ajoutée par l'utilisateur au moment de la requête.

Analyse syntaxique :

Elle commence à être introduite sur les outils du web, mais de manière encore assez marginale, et plutôt dans les modules de requête, et non d'indexation :
- cf Exalead
Tendance en plein développement : création de classifications (cf plus loin)

Analyse sémantique :

Quasi-inexistante sur les outils du web et sur les modules d'indexation. Certaines fonctions d'analyse à la fois sémantique et statistique apparaissent sur certains moteurs, mais concernent plutôt les modules de requêtes.

Traitement statistique :

Principale méthode d'indexation utilisée par les moteurs de recherche, pour déterminer "l'estimation de la pertinence" (relevance feedback) : le traitement statistique des mots.

⇒ Question (difficile à trancher !) : où se font les opérations de traitement statistique du langage naturel ?
- dans le module d'indexation, lors de la constitution des index, cad "a priori" ?
- dans le module de requête, lors du traitement des requêtes ?
- dans les deux modules ?
- et si oui (réponse la plus probable), selon quelles modalités et avec quelles délimitations ?

En fait, l'identification des méthodes de calcul de la pertinence dans les moteurs de recherche est très difficile, car ces méthodes, reposant sur des algorithmes complexes, restent le "secret de fabrication" des outils de recherche : protection par les brevets...

  • Quelques notions générales sur l'estimation de la pertinence :
    • la valeur des pages indexées est :
      • soit absolue : indépendante des recherches ; traitement réalisé lors de la constitution de l'index
      • soit relative : dépendante des recherches ; calcul fait lors du traitement de la requête
    • la pondération : calcul du "poids" d'un mot, en fonction de différents facteurs
    • la similarité : appariement entre un mot du document et un terme de la requête
           
      ⇒  voir plus loin  


En résumé :
La majorité des moteurs de recherche sur internet ont des méthodes simples et rapides d'indexation, dépourvues de traitements linguistiques complexes, fondées essentiellement sur les calculs statistiques de pertinence.
 

Aspects négatifs : l'interrogation des sites web par les moteurs de recherche avec des mots tirés du langage courant, peut donner des résultats décevants, liés au faible niveau d'indexation réalisée par les moteurs (0 / 0+), liés aussi au caractère équivoque du langage naturel.

Aspects positifs : Un niveau d'indexation faible (et même sans supprimer les mots vides) permettra toujours de retrouver sur internet des passages précis et des expressions littérales.

A noter : l'introduction progressive des méthodes de TALN sur les moteurs de recherche, commencée sur quelques moteurs comme AskJeeves, Exalead, Alta Vista, constitue l'un des axes majeurs de développement des outils de recherche, mais aussi l'un des principaux défis, compte-tenu de la nature du web actuel.

 haut de page