Evolutions de la recherche d'information : web sémantique, métadonnées...

Quelles sont les principales évolutions qui vont toucher le web, les technologies de l'information et de la mémoire, les outils et méthodes de recherche d'information ? Il est très difficile de résumer ici un tel phénomène, compte-tenu de la complexité du paysage et de l'explosion des innovations.

⇒ Très schématiquement, au moins quatre grandes tendances peuvent être pointées :

du côté de l'offre informationnelle (producteurs, éditeurs, sources d'information au sens large) :
- une plus grande structuration et une meilleure organisation de l'offre d'informations, déjà en marche au travers de différents dispositifs (portails, réseaux collaboratifs, dispositifs d'auto-archivage, etc.). Ce mouvement de fond, déjà commencé dans plusieurs secteurs, va s'accélérer et sortir le web de la période encore "brouillonne", désordonnée, qui caractérise la nouvelle économie du savoir numérique.
du côté des outils de recherche :
- l'accentuation de la diversification, de la spécialisation et du perfectionnement des outils de recherche, à travers notamment :
  - l'essor des outils spécialisés sur un domaine, un type de ressources, un public, etc. (cf l'exemple de Scirus en Sciences exactes, d'In-Extenso.org en Sciences Humaines, des annuaires de plus en plus spécialisés...)
  - de nombreux perfectionnements techniques à attendre encore dans les capacités des outils de recherche, notamment par l'intégration des techniques d'indexation et de traitement du langage naturel (cf les revues de presse automatisées sur Google)
  - une simplification toujours plus poussée des interfaces hommes-machines, progrès dans la présentation des résultats de recherche...
  - le développement possible, sur le web, des techniques de recherche d'images par le contenu

du côté du marché des outils et de celui de l'information :
- l'exacerbation de la concurrence, les risques de "privatisation" et de "libéralisation" de la recherche d'information, une distinction "public/privé" plus marquée :
  - l'essor des logiques purement commerciales au coeur même des techniques de recherche (vente de mots-clés, développement des techniques de positionnement payant, effets pervers de l'indice de popularité...) traduit vraiment la fin de la gratuité d'Internet, déjà remise en cause depuis plusieurs années.
  - l'apparition de nouveaux risques liés à la propriété intellectuelle dans le domaine des produits de la recherche d'information : cf les tentatives de certaines firmes de faire breveter les mots-clés, les concepts, les noms propres, les classifications... (phénomène comparable à celui de la "brèvetabilité du vivant")
  - l'une des conséquences possibles de cette problématique de la "libéralisation" de la recherche d'information est l'accentuation de la différence entre les deux mondes de la recherche d'information, pendant longtemps assez peu distincts dans leur fonctionnement technique : les outils du secteur privé et ceux du secteur public.

du côté de la structuration et de l'indexation de l'information :
- apparition des mutations les plus profondes, conditionnant toutes les autres à plus ou moins long terme : il s'agit ici des travaux autour du "web sémantique", de l'explosion de XML, des travaux sur les métadonnées, la normalisation, de l'essor des techniques d'indexation...

Le "web sémantique"

⇒ Qu'est-ce que le web sémantique (Semantic Web) ?
- Vaste chantier de recherche, mobilisant de nombreux acteurs, lancé et piloté par le W3C pour pallier les insuffisances actuelles du web.

⇒ Qu'est-ce que le W3C ?
Le W3C (World Wide Web Consortium) a été créé en 1994 par Tim Berners-Lee et le MIT (Massachussets Institute of Technology), pour gérer les technologies et les évolutions du web.
Ce consortium international, dirigé par T. Berners-Lee, repose sur trois grands organismes de recherche, qui sont les hôtes du W3C : le MIT à Cambridge, la Keio University au Japon, l'INRIA en France.
Outre ces trois organismes, le W3C est composé de nombreux membres :
- grandes entreprises d'informatique : Adobe Systems, Apple, Bull, IBM, Cisco Systems, Compaq, Intel, Microsoft, Xerox.
- opérateurs de télécommunications : AT&T, France Télécom, Deutsche Telekom, et d'électricité : EDF
- grandes firmes : Alcatel, Matra Hachette, AOL, Boeing
- autres laboratoires et organismes de recherche : CNRS, , le CERN (Centre d'Etudes et de Recherche Nucléaire), le laboratoire européen de physique des particules à Genève, qui est le berceau du WWW
- institutions militaires : l'OTAN est membre du W3C

Les activités du W3C concernent :
- l'architecture du web : serveurs web, protocole HTTP...
- l'évolution du langage HTML
- les interfaces utilisateurs
- les spécifications XML

Le W3C regroupe actuellement plus de 510 membres.
Ne produit pas des normes, mais des "Recommandations", diffusées gratuitement.

⇒ Quels sont les finalités et les objectifs du Web sémantique ?

Le constat initial : les limites et les inconvénients du web actuel :
- hétérogénéité des formats, des informations
- absence de description et d'indexation des ressources
- imprécision de la recherche d'information
- absence de structure explicite globale du web : réseau de noeuds et de liens, mais pas d'exploitation sémantique des liens hypertexte

Finalités du web sémantique :

- transformer le web en un vaste "espace d'échanges de ressources entre machines, permettant l'exploitation de grands volumes d'informations et de services variés"
- "libérer les utilisateurs d'une partie du travail de recherche et d'exploitation des résultats, grâce à des capacités accrues :

de recherche d'information
d'intégration de sources d'information
de découverte, d'exploitation et de combinaisons de services
de raisonnement des machines"

(d'après P. Laublet)

Objectifs visés : une meilleure structuration du web

- rendre explicites les relations sémantiques (les liens) entre les documents du web
- faciliter l'utilisation et la recomposition des ressources par les machines
- ajouter des annotations sémantiques aux ressources du web, décrivant leurs contenus et leurs fonctionnalités
- permettre une meilleure interopérabilité : des ressources et des machines
- développer une grammaire universelle pour la production, le stockage et l'échange des données : XML

Enjeu : permettre et développer un accès "intelligent" à l'information

⇒ Comment ? Sur quels principes et outils repose le web sémantique ?

Pour permettre aux machines d'exploiter ces annotations sémantiques et permettre ces accès intelligents aux ressources, une quadruple normalisation est nécessaire :

normaliser l'identification des ressources numériques
normaliser la description des ressources : les systèmes de métadonnées (RDF, Dublin Core...)
normaliser la structuration des documents numériques, cad créer une langue universelle pour les documents numériques : XML
normaliser l'indexation, cad les langages permettant de décrire et d'indexer le contenu des documents : classifications, ontologies, thésaurus...

Principe fondamental du web sémantique : la séparation du contenu des documents de l'organisation de ce contenu

⇒ Quels sont les grands travaux de ce chantier de recherche ?

Travaux en cours menés dans quatre directions :

- - l'identification stable des concepts et des objets du web : travaux menés sur les normes d'identification des documents électroniques
  - le métalangage XML et la normalisation des modèles de structuration des documents
  - les outils et les normes d'indexation des documents : les métadonnées (RDF, Dublin Core...)
  - la construction d'ontologies et de thesaurus partageables : présence des thésaurus dans les nouvelles problématiques de l'indexation

Ontologie :

A l'origine, terme philosophique (science de l'être). Reprise du terme en informatique pour désigner la représentation des connaissances et la définition de catégories. Une ontologie structure les termes d'un domaine, en établissant des relations de proximité entre eux, du type "partie de". Les ontologies informatiques sont des formes de taxinomies, ou classifications utilisées en sciences naturelles.

⇒ Quelles applications ? L'exemple du portail médical Caducee.net.
(d'après l'intervention du Dr Laurent Labrèze, Bordeaux, lors d'une Journée d'études ADBS, en 2002)

Caducee.net est un portail santé, destiné aux professionnels de la santé, offrant différents outils et services collaboratifs (d'actualité, de formation...) et surtout un fonds de ressources médicales très important.
Par les techniques de description et d'indexation mises en oeuvre et par les services offerts, Caducee.net est un prototype du Web sémantique.

- Fonds de ressources médicales accessibles aux professionnels :

entre 25 000 et 30 000 documents, accessibles par 500 000 "points de vue"

- Objectif de Caducee : permettre aux utilisateurs (professionnels santé) de retrouver une information pertinente avec le moins de "bruit" possible, et par de nombreux accès (ou "points de vue") : date, auteur, discipline, thème clinique
- Plusieurs types de contenus indexés :
  - documents classiques : articles, monographies...
  - documents spécifiques : imagerie médicale, cas cliniques, dossiers de patients, avec des suites d'événements, de nombreux diagnostics, états cliniques, etc.
- Utilisation combinée de différents outils d'indexation :
  - un méta-thésaurus médical : MeSH (MEdical Heading Subject), énorme thésaurus servant à l'indexation de la banque de données Medline
  - Index générique du Dublin Core Metadata : métadonnées de description des documents
  - Moteur de recherche contextuel sur le contenu, offrant des possibilités de requêtes très fines

⇒ Quelles conséquences du web sémantique ?

A moyen terme, si le Web sémantique se développe véritablement et s'étend à la plupart des ressources numériques du web, de profonds bouleversements sont à prévoir dans la production, l'échange et la recherche d'informations sur le web :

Travail en profondeur dans la trame même des documents et de l'information, au niveau "micro" des documents ; importance de la notion de "granularité" de l'information
possibilités inédites de recherche intelligente sur le contenu
nouvelles formes de représentation de l'information : en amont (lors de la conception avec XML) et en aval (lors de la recherche)

haut de page

Les métadonnées : définition, exemples, applications, enjeux

⇒ Contexte

Le concept de métadonnées est antérieur à Internet et au Web, mais il prend toute son importance et son intérêt dans le contexte du Web ; Le Web ne dispose pas initialement de normes qui facilitent et homogénéisent l'indexation automatique. Les pages HTML sont très peu structurées et les logiciels d'indexation s'arrêtent à un niveau très pauvre de contenu.

Or, plusieurs constatations :

⇒ Développement de l'édition électronique et des bibliothèques numériques sur le web
⇒ Surabondance d'information : grandes quantités de données numériques non différenciées accessibles en ligne
⇒ Nécessité d'établir des normes descriptives fines du document électronique et d'instaurer de nouvelles pratiques pour ce type de ressources, dans le but d'améliorer la pertinence des résultats de recherche d'information.

" L'association de métadonnées descriptives standardisées avec des objets en réseau offre un potentiel d'amélioration substantiel des possibilités de découverte de ressources : en permettant des recherches basées sur des champs (auteur, titre), en permettant l'accès à un contenu de substitution, ce qui est différent de l'accès au contenu de la ressource elle-même" (Weibel et Lagoze, 1997)

Métadonnées comme solution pour enrichir l'indexation automatique ?

⇒ Définition

Les métadonnées sont des données à propos d'autres données; ce sont des informations descriptives sur les ressources du web.

Les métadonnées décrivent une ressource d'information : un document, mais aussi une image, un fichier sonore à l'intérieur d'un document.

Une notice contenant des métadonnées comporte un ensemble d'attributs ou éléments nécessaires pour décrire la ressource.
2 types de lien possibles entre une notice de métadonnées et la ressource qu'elle décrit :
- les éléments peuvent être contenus dans une notice séparée du document
- les métadonnées sont intégrées dans la ressource elle-même

Différents formats de métadonnées :
- formats "simples"
- formats "structurés"
- formats "riches"

Grande variété de normes, de standards de métadonnées, selon divers types de présentation :
- métadonnées de type base de données = extension des formats MARC
- métadonnées encapsulées (fournies dans la ressource) = Dublin Core (DC), TEI (Text Encoding Initiative)
- métadonnées englobantes (peuvent inclure la ressource en tout ou en partie) = EAD (Encoded Archival Description)
- métadonnées externes à la ressource, mais fournies en même temps

Usages et enjeux

Problème qui se pose : Face au développement de l'édition électronique, nécessité de décrire les ressources internet; comment le faire ?
Au regard de la masse documentaire considérée, les normes traditionnelles de bibliothèque sont trop lourdes pour cela.

Avec les métadonnées : fourniture par l'auteur d'informations sur le document produit, permettant d'abord d'affiner une recherche et de réduire le nombre de résultats en gagnant en pertinence.

Nécessité d'une production uniforme et contrôlée de ces données, qui puisse être extraite et partagée.

Evolution des métadonnées dans les sens d'une extension pour répondre aux besoins spécifiques de description et de gestion dans tous les domaines.

HTML a validé les balises :
<META NAME = "Author" CONTENT = " ">
<META NAME = "Keywords" CONTENT = " ">
<META NAME = "Description" CONTENT = " ">

Mais les balises Meta sont en réalité faiblement renseignées; et lorsqu'elles le sont, elles peuvent correspondre à du spamming; pour limiter le spamming, un certain nombre de moteurs ont fini par les ignorer (ou les prendre partiellement en compte, comme Google : keywords non et description parfois), d'autant que la priorité pour le classement des résultats est davantage donnée au contenu du document lui-même (poids faible attribué aux balises méta dans ce cas).

Cependant :

Utilisation dans le cadre d'applications internes à une communauté (Bibliothèques de Mathématiques en France)

Besoin de la part d'organismes spécialisés de définir des standards pour la description et la diffusion de la documentation électronique (ex : MARC pour les catalogues de bibliothèques, CIMI, métadonnées associées aux informations muséographiques...)

Dans cette perspective, que peuvent apporter des standards de métadonnées :

Fournir des structures plus stables et précises que le HTML

Améliorer les performances des moteurs de recherche, qui pourront naviguer dans cette structure, définie par des zones spécifiques ou champs

Donner une description plus fine du contenu d'un document et des relations entre les différents fichiers d'un site web

Favoriser la description des collections de documents représentant un document logique unique

Faciliter l'évaluation par le classement du contenu

Rendre plus visibles les droits de propriété intellectuelle, les droits d'accès aux sites web

Permettre la validation des textes par l'encodage de la signature numérique

Favoriser l'information sur tout ce qui relève de la gestion du document (états successifs du document)

Rendre les informations partageables

Exemples

De nombreuses communautés s'intéressent aux métadonnées; les standards concernant les métadonnées sont nombreux et orientés métiers (MARC, EAD, CIMI, RKMS, MPEG-7, LOM...). La multiplication des besoins "métiers" et la variété des nomenclatures existantes ont conduit à la recherche d'un standard de base : le NCSA et l'OCLC (1995) ont défini un ensemble de métadonnées communes à diverses communautés : le Dublin Core Initiative.

Dublin Core

La norme de métadonnées Dublin Core est un ensemble de 15 éléments destinés à décrire une grande variété de ressources sur internet et à appuyer la recherche de ces ressources.

L'établissement de ce standard est issu du consensus international de professionnels de diverses disciplines : bibliothéconomie, informatique, balisage de textes, musées...
Organisme : Dublin Core Metadata Initiative

Objectifs du Dublin Core :
- offrir la possibilité de créer facilement des notices descriptives simples pour les ressources, tout en permettant des recherches efficaces de ces ressources sur le réseau
- établir un ensemble commun d'éléments dont la sémantique est universellement comprise, au delà d'une spécialisation disciplinaire (ex : élément créateur)
- donner au standard une dimension internationale et multilingue (versions en plus de 20 langues en 1999)
- disposer d'un mécanisme permettant d'étendre les éléments du DC pour des communautés spécifiques

Les éléments de base de la norme Dublin Core :
15 élements définis chacun par un ensemble de 10 attributs.

Extrait de "Eléments de métadonnées du Dublin Core, Version 1.1. : Description de Référence", trad. par Anne-Marie Vercoustre, INRIA (http://www-rocq.inria.de/~vercoust/METADATA/DC-fr.1.1.htm)

Elément: Titre

Nom: titre
Identifiant: title
Définition: Le nom donné à la ressource.
Commentaire: un titre sera le nom par lequel la ressource est officiellement connue.

Element: Créateur

Nom: créateur
Identifiant: Creator
Définition: L'entité principalement responsable de la création du contenu de la ressource.
Commentaire: Exemples de Créateur incluent une personne, une organisation, ou un service.Typiquement, un nom du Créateur devrait être utilisé pour désigner cette entité.

Elément: Sujet

Nom: sujet et mots-clefs
Identifiant: subject
Définition: Le sujet du contenu de la ressource.
Commentaire: Typiquement, le sujet sera décrit par un ensemble de mots-clefsou de phrases ou un code de classification qui précisent le sujet de la ressource. L'utilisation de vocabulaires contrôlés et de schémas formels de classification est encouragée.

Element: Description

Nom: description
Identifiant: description
Définition: Une description du contenu de la ressource.
Commentaire: Une Description peut contenir, mais ce n'est pas limitatif: un résumé, une table des matières, une référence à une représentation graphique du contenu, ou un texte libre sur le contenu.

Elément: Editeur

Nom: éditeur
Identifiant: publisher
Définition: L'entité responsable de la diffusion de la ressource, dans sa forme actuelle, tels, un département universitaire, une entreprise.
Commentaire: Exemples d'Editeurs incluent une personne, une organisation, ou un service. Typiquement, le nom d'une maison d'édition devrait être utilisé ici.

Elément: Contributeur

Nom: contributeur
Identifiant: contributor
Définition: Une entité qui a contribué à la création du contenu de la ressource.
Commentaire: Exemples de Contributeur incluent une personne, une organisation, ou un service. Typiquement, le nom d'un contributeur devrait être utilisé ici pour désigner l'entité.

Elément: Date

Nom: date
Identifiant: date
Définition: Une date associée avec un événement dans le cycle de vie de la ressource.
Commentaire: Typiquement, une date sera associée à la création ou à la publication d'une ressource. Il est fortement recommandé
d'encoder la valeur de la date en utilisant le format défini par l'ISO 8601 [W3CDTF] sous la forme AAAA-MM-JJ.

Elément: Type

Nom: type de la ressource
Identifiant: type
Définition: La nature ou le genre du contenu de la ressource.
Commentaire: Type inclut des termes décrivant des catégories, fonctions ou genres généraux pour le contenu, ou des niveaux d'agrégation. Il est recommandé de choisir la valeur du type dans une liste de vocabulaire contrôlé (par exemple, la liste provisoire de Types du Dublin Core[DCT1]). Pour décrire la matérialisation physique ou digitale de la ressource, il faut utiliser l'élément Format.

Elément: Format

Nom: format
Identifiant: format
Définition: La matérialisation physique ou digitale de la ressource.
Commentaire: Typiquement, Format peut inclure le media ou les dimensions de la ressource. Format peut être utilisé pour préciser le logiciel, le matériel ou autre équipement nécessaire pour afficher ou faire
fonctionner la ressource. Exemples de dimensions incluent la taille et la durée. Il est recommandé de choisir la valeur du format dans une liste de vocabulaire contrôlé(par exemple, la liste des types de media définis sur Internet [MIME]).

Elément: Identifiant

Nom: identifiant de la ressource
Identifiant: identifier
Définition: Une référence non ambiguë à la ressource dans un contexte donné
Commentaire: Il est recommandé d'identifier la ressource par une chaîne de caractère ou un nombre conforme à un sytème formel d'identification. Exemples de systemes formels d'identification incluent le "Uniform Resource Identifier" (URI) (qui inclut le "Uniform Resource Locator" (URL)), le "Digital Object Identifier"(DOI) et le "International Standard Book Number"(ISBN).

Elément: Source

Nom: source
Identifiant: source
Définition: Une référence à une ressource à partir de laquelle la ressource actuelle a été dérivée.
Commentaire: La ressource actuelle peut avoir été dérivée d'une autre ressource source, en totalité ou en partie. Il est recommandé de reférencer cette source par une chaîne de caractère ou un nombre conforme à un système formel d'identification.

Elément: Langue

Nom: langue
Identifiant: language
Définition: La langue du contenu intellectuel de la ressource.
Commentaire: Il est recommandé d'utiliser comme valeur de l'élément Langue celles definies par la RFC 1766 [RFC1766] qui comprend un code de langage à deux caractères(venant du standard ISO 639 [ISO639]), éventuellement suivi d'un code à deux lettres pour le pays (venant du standard ISO 3166 [ISO3166] ou en français [ISO3166]). Par exemple, 'en' pour l'anglais, 'fr' pour le français, ou 'en-uk' pour l'anglais utilisé au Royaume-Uni.

Elément: Relation

Nom: relation
Identifiant: relation
Définition: Une référence à une autre ressource qui a un rapport avec cette ressource.
Commentaire: Il est recommandé de référencer cette ressource par une chaîne de caractères ou un numéro conforme à un système formel d'identification.

Elément: Couverture

Nom: couverture
Identifiant: coverage
Définition: La portée ou la couverture spatio-temporelle de la ressource.
Commentaire: La couverture typiquement inclut une position géographique (le nom d'un lieu ou ses coordonnées), une période de temps (un nom de période, une date, ou un intervalle de temps) ou une juridiction (telle que le nom d'une entité administrative). Il est recommandé de choisir la valeur de Couverture dans un vocabulaire contrôlé (par exemple, un thésaurus de noms géographiques, comme[TGN]) et, quand cela est approprié, des noms de lieux ou de périodes plutôt que des identifiants numériques tels que des coordonnées ou des intervalles de dates.

Elément: Droits

Nom: gestion des droits
Identifiant: rights
Définition: Information sur les droits sur et au sujet de la ressource.
Commentaire: Typiquement, un élément Droits contiendra un état du droit à gérer une ressource, ou la reférence à un service fournissant cette information. Ces droits souvent couvrent les droits de propriété intellectuelle (IPR), Copyright, et divers droits de propriété. Si l'élément Droits est absent, aucune hypothèse ne peut être faite sur l'état de ces droits, ou de tout autre, par rapport à la ressource.

Ces éléments peuvent être définis par des qualificatifs. Les éléments Dublin Core peuvent être représentés selon différentes syntaxes : HTML (balises Meta dans la section Head= DC Creator - Content...), RDF/XML... Les concepts Dublin Core sont applicables à presque tous les formats de fichiers.

Les programmes d'indexation des outils de recherche qui sont capables d'interpréter des notices avec métadonnées effectuent une analyse à partir de la balise <HEAD> qu'ils terminent juste avant la balise </HEAD>.

⇒ TEI, Text Encoding Initiative

La TEI permet l'échange des données textuelles et d'autres types de données : images ou sons.

La Text Encoding Initiative est un projet international destiné à élaborer un ensemble de normes pour la préparation et l'échange de textes électroniques (remonte à 1987). Découle de la constation que la grande variété de formats de codage et de représentation des textes rend plus difficile l'échange des données et la communication de la recherche.

Mise au point des principes de base pour un nouveau format de codage des textes électroniques.

La TEI a été créée officiellement en 1988, sous l'égide de l'Association for Computers and the Humanities, de l'Association for Computational Linguistics et de l'Association for Literary and Linguistic Computing.

1994 : publication des "Recommandations pour le codage et l'échange des textes informatisés" (TEI P3) .

La TEI, basée sur le langage SGML, permet l'échange des données textuelles et d'autres types de données : images ou sons. Importance pour l'accès aux documents électroniques.

Applications :

publication électronique - analyse littéraire et historique - lexicographie - traitement automatique des langues, recherche documentaire - hypertexte...

TEI et métadonnées :

L'en-tête qui débute toute ressource électronique encodée en TEI peut être assimilé à une métadonnée, (fournit l'information catalographique + information non bibliographique, déterminante dans le traitement du texte électronique = description de la manière dont le texte a été codé; description non bibliographique / profil du texte; historique de révision).

⇒ RDF, un cadre de description

Objectif :

Propose un cadre de définition des métadonnées (ce n'est donc pas un modèle supplémentaire de métadonnées), quel que soit le format utilisé; doit permettre de rendre plus efficace le traitement automatisé des informations du Web, en fédérant les vocabulaires et syntaxes de description de métadonnées existantes dans un
cadre commun.

Applications :

     - recherche d'information, pour donner aux outils de recherche des possibilités accrues.
     - catalogage : description du contenu et rapports avec les divers contenus d'un site web
     - partage et échange de connaissances, via des agents logiciels intelligents

Pilotage et travaux :

W3C - utilisation de XML - influence du Dublin Core

Objectif commun des standards et cadres de référence de métadonnées :

Fournir des éléments fins de description des documents numériques pour faciliter l'accès aux données qu'ils contiennent.

⇒ Autres système des description : l'identification des documents numériques

= DOI ou Document Oriented Interface / Interface Orientée Document.
Le DOI est un identifiant unique et persistant d'un document (texte, livre, photos, etc.).

Il se compose d'un préfixe et d'un suffixe :

Le préfixe correspond à l'identifiant de l'organisation qui a en premier enregistré le document (il ne change pas en cas de revente des droits intellectuels = persistance et donc ne peut servir à déterminer quel est le possesseur de ces droits). On obtient un préfixe auprès d'une société spécialisée (un registrar).

Le suffixe est l'identifiant du document. Il peut avoir de nombreuses formes, et notamment être constitué de l'ISBN en cas de livre.

Un DOI est enregistré avec un certain nombre d'informations complémentaires, dont le titre du document, son type, le possesseur des droits, etc. et la localisation de l'endroit où le trouver. Un système de résolution, basé sur la technologie Handle de la Corporation for National Reseach Initiative, exploite cette information de localisation et permet d'associer de manière transparente un DOI à l'URL contenant le document.

C'est à dire que la page peut changer d'adresse mais que le DOI permettra toujours de la retrouver. En d'autres termes : il vaut mieux retenir le DOI que l'URL.

haut de page

XML : présentation, origines, principes, applications

Notions sur les structures du document

⇒ Distinction entre les différentes structures des documents :

- un document écrit peut être vu de différentes manières : du point de vue de son contenu, de sa mise en forme, de sa structuration en différentes parties (chapitres, paragraphes...), etc.

- un document recouvre ainsi plusieurs "structures" :

· une structure physique : succession de lignes, de paragraphes, de pages, de blocs, de caractères typographiques...

> correspond à la mise en forme du document

· une structure logique : organisation du texte en titre, résumé, chapitres, sections, conclusions, etc.

> correspond à l'organisation, la structuration de l'information contenue dans le document.

Mais on peut relever d'autres structures :

· une structure sémantique

· une structure temporelle, pour les documents multimédias

· des structures génériques et spécifiques :

o par exemple, les thèses ou les rapports de recherche sont organisés selon une même structure globale, dite générique (cf normes de présentation des thèses) mais chaque thèse, chaque rapport aura sa propre structure individuelle (nombre de chapitres, etc.), dite spécifique

· La distinction entre les différentes structures du document est au fondement des langages de "balisage" :

Les langages de balisage du document

SGML, HTML, XML ... sont des langage (ou des méta-langages) de balisage (markup), permettant de distinguer et de matérialiser, dans un document, ses différentes parties, par un système de parenthésage et de qualification des blocs d'information, les balises (tags).

Schéma général du balisage :

Les parties d'un document qui doivent être distinguées sont encadrées par une paire de balises : une balise de début, ouvrante : <...>, une balise de fin, fermante : </...>
Exemple : <titre>.......</titre>

Langages à balises permettent de structurer l'information et de fournir une méta-information (de l'information sur l'information) : ceci est un titre, ceci est un nouveau paragraphe, etc.

D'où vient XML ? Repères historiques

- Dans les années 70 : premiers travaux sur la structuration de l'information numérique, lancés par un ingénieur d'IBM, Charles Goldfarb : mise au point de GML (Generalized Markup Language) puis travail en collaboration avec l'organisme de normalisation américain, l'ANSI, en 1978, pour créer une norme commune de structuration des documents électroniques.

- En 1986 : publication par l'ISO de la norme SGML (Standard Generalized Markup Language), après huit ans de travaux, menés par Goldfarb et l'ANSI.

- En 1990 : traduction en français par l'AFNOR de la norme SGML. Succès rapide de la norme SGML dans le monde de la documentation technique et scientifique.

- En 1991 : création par Tim Berners-Lee des fondements du web et du langage HTML (Hyper Text markup Language), pour la mise en forme de documents sur le WWW.

HTML est repris de SGML et intègre les liens hypertextes.

Avantages de HTML : permet une publication et une diffusion faciles de documents sur le web et la navigation hypertexte.

- - Limites de HTML : langage destiné uniquement à la visualisation de l'information sur écran. Structuration assez réduite : pas de distinction entre la structure logique et la structure physique. Limites vite atteintes, avec l'explosion du web en 1996.

- 1996 : devant les limites de HTML, et les attentes des utilisateurs de SGML, plus ou moins exclus du web qui ne correspondait pas à leurs besoins, mise en chantier d'un nouveau langage par le W3C (World Wide Web Consortium) : XML.

- 1998 : publication de la première version de la Recommandation XML

- 2000 : seconde édition de la Recommandation XML, qui constitue actuellement la version de référence.

- Aujourd'hui, mise à l'étude d'une version 1.1 de la Recomandation, encore au stade de working draft

Définition et objet de XML :

Un méta-langage :

XML signifie eXtensible Markup Language ; mais contrairement à la signification de l'acronyme, XML n'est pas un véritable langage informatique de description ou de balisage (markup) de documents, comme HTML.
XML est une méthode normalisée, une sorte de "méta-langage", permettant de créer ou de concevoir des méthodes de description des documents. Il comprend également un ensemble de spécifications ou de recommandations particulières, en cours de finalisation.

Objet de XML :

Permettre une structuration très fine de l'information, fondée sur la distinction entre :

- - la structure physique
  - la structure logique du document

Un ensemble de recommandations du W3C :
Pour permettre les différentes opérations de traitement informatique dans la structuration des documents, le W3C n'a pas cessé de définir plusieurs recommandations spécifiques. Par exemple :

- XPath (XML Path Language) : langage XML permettant d'exprimer des chemins (path) au sein d'un document structuré, entre les différentes parties logiques (citations, chapitre...) ;
- XSLT pour la transformation de structures : un document XML peut être considéré comme un "document source", pouvant se transformer en documents "résultats". Par exemple, avec les règles XSLT, un même document d'origine XML peut générer des documents de différents formats : HTML, PDF...

La famille XML :

- XML étant une syntaxe de description, plusieurs langages applicatifs ont été développés, correspondant à des types de documents particuliers. Par exemple :
  - MathML pour la représentation des formules mathématiques
  - SVG pour la représentation d'objets graphiques complexes
  - SMIL pour la représentation de documents multimédias
  - etc.

Intérêt de XML :

- - ne "remplace" pas HTML mais l'enrichit
  - permet de générer une sorte de "grammaire" universelle pour la description logique des documents
  - un même document, codé à l'origine en XML, peut être publié en différents formats d'édition : HTML, PDF, synthèse vocale...
  - unification de la description et de la structuration logique des documents et diversité des applications : industrie, commerce, recherche scientifique, bibliothèques...
  - cohérence dans la description des documents par les différents systèmes de métadonnées (TEI, Dublin Core, RDF...)
  - indépendance de XML par rapport aux formats, aux logiciels et systèmes d'exploitation existants
  - XML est fondé sur le format de codage de caractères Unicode, compatible avec toutes les langues du monde
    ⇒ Principal atout de XML : son universalité

Applications de XML :

Applications professionnelles de XML très nombreuses et de plus en plus diversifiées, dans la production et la diffusion des documents électroniques :
- dans la gestion documentaire : transformation des bases de données classiques en bases de données XML
- dans la GED : échange de documents électroniques entre systèmes hétérogènes

⇒ XML comme nouveau format d'échange universel de données ?

- dans les "Web Services" : nouveau concept, voire nouveau paradigme de l'informatique et du web. Les "Web Services" représentent les nouvelles applications nées de (ou permises par) XML.

Un Web Service offre aux utilisateurs une gamme complète de services et surtout une transparence totale des processus de transactions.
- Exemple : pour la préparation d'un voyage, possibilité de faire des demandes de renseignements, des réservations (avion, hôtel, voiture...), des préparations de circuits, etc., auprès de plusieurs opérateurs distincts, mais en une seule session de connection : interopérabilité et transparence entre différentes applications et services.

- Enjeux économiques majeurs du développement de XML

- dans la recherche d'information : possibilité de recherches très fines sur le contenu, sur des fragments de documents

Un exemple d'application grand public (mais invisible) de XML : le panneau d'affichage des informations sur les horaires et tous les moyens de transport à la Grande Arche de la Défense à Paris : fusion et affichage de données provenant de la RATP et de la SNCF.

Références bibliographiques de cette partie du cours sur XML :

- ROLE, François. XML et la documentation structurée : des principes aux techniques. In INRIA. La recherche d'information sur les réseaux. Cours INRIA, 30 septembre - 4 octobre 2002, Le Bono (Morbihan). Paris : ADBS, 2002, p. 71-97

- Le XML expliqué à vos enfants. Archimag, n° 159, novembre 2002

haut de page

La question de l'indexation et de l'avenir des langages documentaires

Question forte posée aujourd'hui aux professionnels de l'information :
cf la Journée d'étude de l'ADBS en avril 2002, intitulée :
"Du thésaurus au web sémantique : les langages documentaires ont-ils encore un avenir ? "

Quelques remarques sur les évolutions en cours :

L'importance de la question de l'indexation :

la question de l'indexation des ressources électroniques est LA question centrale de la nouvelle économie du savoir en émergence :
distorsion entre la facilité d'accès au document physique et la faiblesse de l'accessibilité sémantique :

problème n° 1 sur le web : comment trouver l'information pertinente ?

Actuellement, limites des mécanismes d'indexation des outils de recherche : pas d'indexation sémantique, niveaux souvent frustes d'indexation...

Un constat : toutes les formes et tous les modes d'indexation présents sur Internet :

utilisation des classifications a priori : annuaires
logiciels de classification automatique
indexation du texte intégral
listes de mots clés
indexation par les métadonnées
thésaurus
logiciels de cartographie de l'information
...

Opposition fréquente mais artificielle des deux grands modes d'indexation :

indexation documentaire par un langage
indexation automatisée sur le texte intégral

En fait, complémentarité de plus en plus forte des deux approches, dans différents systèmes documentaires

Voir l'exemple du portail Santé Caducee.net.

haut de page

Menu secondaire

Mobile menu

Menu principal

Evolutions de la recherche d'information : web sémantique, métadonnées...

Présentation des principales évolutions en cours et de la notion de web sémantique

Les métadonnées : définition, exemples, applications, enjeux

XML : présentation, origines, principes, applications

La question de l'indexation et de l'avenir des langages documentaires

Footer menu

Menu secondaire

Formulaire de recherche

Mobile menu

Menu principal

Vous êtes ici

Evolutions de la recherche d'information : web sémantique, métadonnées...

Présentation des principales évolutions en cours et de la notion de web sémantique

Les métadonnées : définition, exemples, applications, enjeux

XML : présentation, origines, principes, applications

La question de l'indexation et de l'avenir des langages documentaires

Footer menu