La collecte des données

Principe

Exploration initiale

Parcours des liens

Difficultés liées au rythme de parcours du robot

Paramétrage des robots collecteurs

Rapatriement de l'information

Evolutions et limites


Le principe

Tout moteur de recherche fonctionne avec un module de collecte automatique des ressources (spider, crawler, worm), qui procède à une exploration à fréquence régulière des serveurs web ou autres.

- A partir d'un ensemble donné de pages initiales, le robot explore les réseaux de liens du web et parcourt les différentes ressources de l'Internet (sites web, forums, etc.), constituant le "web visible" (accessible par ces robots de collecte).

- Il existe assez peu de logiciels robots : ils sont souvent exploités par plusieurs moteurs de recherche : par exemple, le robot d'Inktomi.

haut de page


Exploration initiale

En général, un robot commence ses visites des sites web à partir d'un noyau initial : une liste d'URL extraits de pages ayant beaucoup de liens; l'exploration initale se poursuit ensuite selon différents critères :

  • déclarations spontanées des serveurs = soumission manuelle par les auteurs de sites
  • pages "what's new"
  • sélections des meilleurs sites
  • adresses récupérées en parcourant les messages échangés dans les News ou les archives de listes de discussion
  • explorations aléatoires privilégiant des objets avec de nombreux liens et dont l'URL est court.

 haut de page


Parcours des liens

⇒ en largeur d'abord (= tous les liens de même niveau hiérarchique)

⇒ ou en profondeur d'abord (=exploration systématique d'une branche particulière jusqu'au bout)

⇒ ou systèmes mixtes qui opèrent en largeur jusqu'à un certain niveau, puis en profondeur après.

haut de page


Difficultés liées au rythme de parcours du robot

Le rythme d'actualisation de la base de données par le robot (souvent au mieux chaque mois) ne permet pas de prendre en compte toute l'information diffusée sous forme d'actualité

haut de page


Paramétrage des robots collecteurs

Le paramétrage de ces robots, dont dépend la qualité de la collecte, permet de déterminer :

·        les formats de fichiers pris en compte

Au début, seuls les fichiers HTML du WWW étaient collectés ; aujourd'hui, collecte, par plusieurs moteurs, de plusieurs formats de fichiers (fichiers PDF, de la suite Microsoft Office : Power Point, Word, Excel... - Fast indexe aujourd'hui les fichiers Macromedia Flash, .swf)

·        le traitement du fichier robot.txt : par ce fichier, les sites indiquent que le document ne doit pas être pris en compte pour être indexé; dans ce cas, il ne sera pas retenu dans la collecte

·        la taille des pages web :
Les moteurs de recherche définissent au préalable la profondeur de collecte et d'indexation des pages web, c.a.d. la taille des fichiers (mesurée en octets). D'après certaines études, la taille moyenne d’une page web serait de 10 Ko à 19 Ko (ce qui représente assez peu d’informations) et l'indexation des pages web par les moteurs va en général jusqu’à 130 Ko. Mais on trouve une grande diversité des paramétrages des moteurs (voir Marc Duval, Une question de taille, in Chronique de la recherche sur le web, vol. 3, n° 3, 5 mars 2003) :

o      Exalead : 23 Ko

o      Google, Gigablast : 101 Ko

o      Teoma : 115 Ko

o      WiseNut : 120 Ko

o      Alta Vista, AntiSearch : 130 Ko

o      Inktomi, HotBot, MNS : 524 Ko

o      OpenFind : 610 Ko

o      AlltheWeb : 976 Ko

o      Northern Light : 1418 Ko

o      Voilà (Web Francophone) : 1582 Ko

Quelles conséquences de la troncation des fichiers ?

- la multiplication des pages, c.a.d. la tendance chez les concepteurs de sites à diviser les pages, pour être sûr d'être référencé sur les moteurs
- le silence documentaire : pour un mot-clé situé au-delà de la taille indexée (exemple des documents longs : rapports, textes juridiques, thèses…)

⇒ A noter : la taille des fichiers est un critère de recherche et de filtrage sur un seul moteur : AlltheWeb (commande filesize: avec un opérateur numérique.)

·        la nature des traitements effectués sur les liens de la page + sur ceux des pages liées

·        le rythme et les modalités de la surveillance, c'est-à-dire du passage du robot :
il faut en théorie à l'heure actuelle en moyenne de 10 à 20 jours aux robots pour parcourir le réseau (10 millions de pages par jour dans certains cas). Les fréquences de mises à jour varient selon les robots. Pour améliorer les performances des moteurs, le rythme de passage d'un robot peut être programmé en fonction par exemple d'un type de site  (les plus évolutifs sont contrôlés plus fréquemment). On peut mesure les différences entre les moteurs en matière de "rafraîchissement" de la base en comparant le délai de mise à jour de la page la plus récente et celle de la page la plus ancienne.

ex : Sondage du site SearchengineShowdown (04/04/2002) donne notamment pour Google un rapport de 1 / 68 jours, pour Altavista 12 / 51 jours et pour Hotbot 1 / 136 jours.

 haut de page


Rapatriement de l'information

Selon la configuration adoptée pour le robot, tout ou partie de l'information trouvée va être rapatriée : rapatriement uniquement des titres de fichiers html ou des premiers paragraphes et mots les plus fréquents ou du contenu complet des fichiers html.

haut de page


Evolutions et limites

⇒ Les robots étendent de plus en plus leurs capacités dans la collecte des données du web :

  • Volumes plus importants en termes de sites web
  • Extension des format de fichiers pris en compte
  • Extension des protocoles pris en compte (FTP...)
  • Profondeur de l'exploration pour certains robots collecteurs

⇒ Mais difficultés liées au rythme de pacours du robot  :

Le rythme d'actualisation de la base de données par le robot (souvent au mieux chaque mois) ne permet pas de prendre en compte toute l'information diffusée sous forme d'actualité (quotidiens, agences de presse...) qui leur échappe en grande partie.
Pour contrer ce problème, la société Moreover (http://www.moreover.com) alimente une base de données comportant plus de 2400 sources réactualisables tous les quarts d'heure.

⇒ Reste l'obstacle constitué par :

  • les types particuliers de pages sur le web > frames (cadres), scripts modifiant le contenu des pages, technologies propriétaires.
  • pages dynamiques (produites à partir de bases de données ou d'applications spécifiques = .asp, .php...) : leurs URL contiennent des paramètres non exploitables par la plupart des moteurs [le robot exploité par Google suit les liens dynamiques, mais problème pour la visualisation de la page et utilisation de la fonction cache du moteur].
  • pages "orphelines", n'ayant pas fait l'objet de référencement direct ni de lien à partir d'autres pages.
  • pages à accès contrôlé
  • pages interdites de référencement
  • pages produites via un formulaire [cependant, cas de Quigo qui traite les pages avec un formulaire de requête]

haut de page