Présentation des principales évolutions en cours et de la notion de web sémantique
Les métadonnées : définition, exemples, applications, enjeux
XML : présentation, origines, principes, applications
La question de l'indexation et de l'avenir des langages documentaires
Quelles sont les principales évolutions qui vont toucher le web, les technologies de l'information et de la mémoire, les outils et méthodes de recherche d'information ? Il est très difficile de résumer ici un tel phénomène, compte-tenu de la complexité du paysage et de l'explosion des innovations.
⇒ Très schématiquement, au moins quatre grandes tendances peuvent être pointées :
Le "web sémantique"
⇒ Qu'est-ce que le web sémantique (Semantic Web) ?
- Vaste chantier de recherche, mobilisant de nombreux acteurs, lancé et piloté par le W3C pour pallier les insuffisances actuelles du web.
⇒ Qu'est-ce que le W3C ?
Le W3C (World Wide Web Consortium) a été créé en 1994 par Tim Berners-Lee et le MIT (Massachussets Institute of Technology), pour gérer les technologies et les évolutions du web.
Ce consortium international, dirigé par T. Berners-Lee, repose sur trois grands organismes de recherche, qui sont les hôtes du W3C : le MIT à Cambridge, la Keio University au Japon, l'INRIA en France.
Outre ces trois organismes, le W3C est composé de nombreux membres :
- grandes entreprises d'informatique : Adobe Systems, Apple, Bull, IBM, Cisco Systems, Compaq, Intel, Microsoft, Xerox.
- opérateurs de télécommunications : AT&T, France Télécom, Deutsche Telekom, et d'électricité : EDF
- grandes firmes : Alcatel, Matra Hachette, AOL, Boeing
- autres laboratoires et organismes de recherche : CNRS, , le CERN (Centre d'Etudes et de Recherche Nucléaire), le laboratoire européen de physique des particules à Genève, qui est le berceau du WWW
- institutions militaires : l'OTAN est membre du W3C
Les activités du W3C concernent :
- l'architecture du web : serveurs web, protocole HTTP...
- l'évolution du langage HTML
- les interfaces utilisateurs
- les spécifications XML
Le W3C regroupe actuellement plus de 510 membres.
Ne produit pas des normes, mais des "Recommandations", diffusées gratuitement.
⇒ Quels sont les finalités et les objectifs du Web sémantique ?
- transformer le web en un vaste "espace d'échanges de ressources entre machines, permettant l'exploitation de grands volumes d'informations et de services variés"
- "libérer les utilisateurs d'une partie du travail de recherche et d'exploitation des résultats, grâce à des capacités accrues :
(d'après P. Laublet)
- rendre explicites les relations sémantiques (les liens) entre les documents du web
- faciliter l'utilisation et la recomposition des ressources par les machines
- ajouter des annotations sémantiques aux ressources du web, décrivant leurs contenus et leurs fonctionnalités
- permettre une meilleure interopérabilité : des ressources et des machines
- développer une grammaire universelle pour la production, le stockage et l'échange des données : XML
⇒ Comment ? Sur quels principes et outils repose le web sémantique ?
Pour permettre aux machines d'exploiter ces annotations sémantiques et permettre ces accès intelligents aux ressources, une quadruple normalisation est nécessaire :
Principe fondamental du web sémantique : la séparation du contenu des documents de l'organisation de ce contenu
⇒ Quels sont les grands travaux de ce chantier de recherche ?
Travaux en cours menés dans quatre directions :
A l'origine, terme philosophique (science de l'être). Reprise du terme en informatique pour désigner la représentation des connaissances et la définition de catégories. Une ontologie structure les termes d'un domaine, en établissant des relations de proximité entre eux, du type "partie de". Les ontologies informatiques sont des formes de taxinomies, ou classifications utilisées en sciences naturelles.
⇒ Quelles applications ? L'exemple du portail médical Caducee.net.
(d'après l'intervention du Dr Laurent Labrèze, Bordeaux, lors d'une Journée d'études ADBS, en 2002)
Caducee.net est un portail santé, destiné aux professionnels de la santé, offrant différents outils et services collaboratifs (d'actualité, de formation...) et surtout un fonds de ressources médicales très important.
Par les techniques de description et d'indexation mises en oeuvre et par les services offerts, Caducee.net est un prototype du Web sémantique.
entre 25 000 et 30 000 documents, accessibles par 500 000 "points de vue"
⇒ Quelles conséquences du web sémantique ?
A moyen terme, si le Web sémantique se développe véritablement et s'étend à la plupart des ressources numériques du web, de profonds bouleversements sont à prévoir dans la production, l'échange et la recherche d'informations sur le web :
⇒ Contexte
Le concept de métadonnées est antérieur à Internet et au Web, mais il prend toute son importance et son intérêt dans le contexte du Web ; Le Web ne dispose pas initialement de normes qui facilitent et homogénéisent l'indexation automatique. Les pages HTML sont très peu structurées et les logiciels d'indexation s'arrêtent à un niveau très pauvre de contenu.
Or, plusieurs constatations :
⇒ Développement de l'édition électronique et des bibliothèques numériques sur le web
⇒ Surabondance d'information : grandes quantités de données numériques non différenciées accessibles en ligne
⇒ Nécessité d'établir des normes descriptives fines du document électronique et d'instaurer de nouvelles pratiques pour ce type de ressources, dans le but d'améliorer la pertinence des résultats de recherche d'information.
" L'association de métadonnées descriptives standardisées avec des objets en réseau offre un potentiel d'amélioration substantiel des possibilités de découverte de ressources : en permettant des recherches basées sur des champs (auteur, titre), en permettant l'accès à un contenu de substitution, ce qui est différent de l'accès au contenu de la ressource elle-même" (Weibel et Lagoze, 1997)
Métadonnées comme solution pour enrichir l'indexation automatique ?
⇒ Définition
Les métadonnées sont des données à propos d'autres données; ce sont des informations descriptives sur les ressources du web.
Les métadonnées décrivent une ressource d'information : un document, mais aussi une image, un fichier sonore à l'intérieur d'un document.
Une notice contenant des métadonnées comporte un ensemble d'attributs ou éléments nécessaires pour décrire la ressource.
2 types de lien possibles entre une notice de métadonnées et la ressource qu'elle décrit :
- les éléments peuvent être contenus dans une notice séparée du document
- les métadonnées sont intégrées dans la ressource elle-même
Différents formats de métadonnées :
- formats "simples"
- formats "structurés"
- formats "riches"
Grande variété de normes, de standards de métadonnées, selon divers types de présentation :
- métadonnées de type base de données = extension des formats MARC
- métadonnées encapsulées (fournies dans la ressource) = Dublin Core (DC), TEI (Text Encoding Initiative)
- métadonnées englobantes (peuvent inclure la ressource en tout ou en partie) = EAD (Encoded Archival Description)
- métadonnées externes à la ressource, mais fournies en même temps
Usages et enjeux
Problème qui se pose : Face au développement de l'édition électronique, nécessité de décrire les ressources internet; comment le faire ?
Au regard de la masse documentaire considérée, les normes traditionnelles de bibliothèque sont trop lourdes pour cela.
Avec les métadonnées : fourniture par l'auteur d'informations sur le document produit, permettant d'abord d'affiner une recherche et de réduire le nombre de résultats en gagnant en pertinence.
Nécessité d'une production uniforme et contrôlée de ces données, qui puisse être extraite et partagée.
Evolution des métadonnées dans les sens d'une extension pour répondre aux besoins spécifiques de description et de gestion dans tous les domaines.
HTML a validé les balises :
<META NAME = "Author" CONTENT = " ">
<META NAME = "Keywords" CONTENT = " ">
<META NAME = "Description" CONTENT = " ">
Mais les balises Meta sont en réalité faiblement renseignées; et lorsqu'elles le sont, elles peuvent correspondre à du spamming; pour limiter le spamming, un certain nombre de moteurs ont fini par les ignorer (ou les prendre partiellement en compte, comme Google : keywords non et description parfois), d'autant que la priorité pour le classement des résultats est davantage donnée au contenu du document lui-même (poids faible attribué aux balises méta dans ce cas).
Cependant :
Utilisation dans le cadre d'applications internes à une communauté (Bibliothèques de Mathématiques en France)
Besoin de la part d'organismes spécialisés de définir des standards pour la description et la diffusion de la documentation électronique (ex : MARC pour les catalogues de bibliothèques, CIMI, métadonnées associées aux informations muséographiques...)
Dans cette perspective, que peuvent apporter des standards de métadonnées :
Fournir des structures plus stables et précises que le HTML
Améliorer les performances des moteurs de recherche, qui pourront naviguer dans cette structure, définie par des zones spécifiques ou champs
Donner une description plus fine du contenu d'un document et des relations entre les différents fichiers d'un site web
Favoriser la description des collections de documents représentant un document logique unique
Faciliter l'évaluation par le classement du contenu
Rendre plus visibles les droits de propriété intellectuelle, les droits d'accès aux sites web
Permettre la validation des textes par l'encodage de la signature numérique
Favoriser l'information sur tout ce qui relève de la gestion du document (états successifs du document)
Rendre les informations partageables
Exemples
De nombreuses communautés s'intéressent aux métadonnées; les standards concernant les métadonnées sont nombreux et orientés métiers (MARC, EAD, CIMI, RKMS, MPEG-7, LOM...). La multiplication des besoins "métiers" et la variété des nomenclatures existantes ont conduit à la recherche d'un standard de base : le NCSA et l'OCLC (1995) ont défini un ensemble de métadonnées communes à diverses communautés : le Dublin Core Initiative.
Dublin Core
La norme de métadonnées Dublin Core est un ensemble de 15 éléments destinés à décrire une grande variété de ressources sur internet et à appuyer la recherche de ces ressources.
L'établissement de ce standard est issu du consensus international de professionnels de diverses disciplines : bibliothéconomie, informatique, balisage de textes, musées...
Organisme : Dublin Core Metadata Initiative
Objectifs du Dublin Core :
- offrir la possibilité de créer facilement des notices descriptives simples pour les ressources, tout en permettant des recherches efficaces de ces ressources sur le réseau
- établir un ensemble commun d'éléments dont la sémantique est universellement comprise, au delà d'une spécialisation disciplinaire (ex : élément créateur)
- donner au standard une dimension internationale et multilingue (versions en plus de 20 langues en 1999)
- disposer d'un mécanisme permettant d'étendre les éléments du DC pour des communautés spécifiques
Les éléments de base de la norme Dublin Core :
15 élements définis chacun par un ensemble de 10 attributs.
Extrait de "Eléments de métadonnées du Dublin Core, Version 1.1. : Description de Référence", trad. par Anne-Marie Vercoustre, INRIA (http://www-rocq.inria.de/~vercoust/METADATA/DC-fr.1.1.htm)
Elément: Titre
Nom: titre
Identifiant: title
Définition: Le nom donné à la ressource.
Commentaire: un titre sera le nom par lequel la ressource est officiellement connue.
Element: Créateur
Nom: créateur
Identifiant: Creator
Définition: L'entité principalement responsable de la création du contenu de la ressource.
Commentaire: Exemples de Créateur incluent une personne, une organisation, ou un service.Typiquement, un nom du Créateur devrait être utilisé pour désigner cette entité.
Elément: Sujet
Nom: sujet et mots-clefs
Identifiant: subject
Définition: Le sujet du contenu de la ressource.
Commentaire: Typiquement, le sujet sera décrit par un ensemble de mots-clefsou de phrases ou un code de classification qui précisent le sujet de la ressource. L'utilisation de vocabulaires contrôlés et de schémas formels de classification est encouragée.
Element: Description
Nom: description
Identifiant: description
Définition: Une description du contenu de la ressource.
Commentaire: Une Description peut contenir, mais ce n'est pas limitatif: un résumé, une table des matières, une référence à une représentation graphique du contenu, ou un texte libre sur le contenu.
Elément: Editeur
Nom: éditeur
Identifiant: publisher
Définition: L'entité responsable de la diffusion de la ressource, dans sa forme actuelle, tels, un département universitaire, une entreprise.
Commentaire: Exemples d'Editeurs incluent une personne, une organisation, ou un service. Typiquement, le nom d'une maison d'édition devrait être utilisé ici.
Elément: Contributeur
Nom: contributeur
Identifiant: contributor
Définition: Une entité qui a contribué à la création du contenu de la ressource.
Commentaire: Exemples de Contributeur incluent une personne, une organisation, ou un service. Typiquement, le nom d'un contributeur devrait être utilisé ici pour désigner l'entité.
Elément: Date
Nom: date
Identifiant: date
Définition: Une date associée avec un événement dans le cycle de vie de la ressource.
Commentaire: Typiquement, une date sera associée à la création ou à la publication d'une ressource. Il est fortement recommandé
d'encoder la valeur de la date en utilisant le format défini par l'ISO 8601 [W3CDTF] sous la forme AAAA-MM-JJ.
Elément: Type
Nom: type de la ressource
Identifiant: type
Définition: La nature ou le genre du contenu de la ressource.
Commentaire: Type inclut des termes décrivant des catégories, fonctions ou genres généraux pour le contenu, ou des niveaux d'agrégation. Il est recommandé de choisir la valeur du type dans une liste de vocabulaire contrôlé (par exemple, la liste provisoire de Types du Dublin Core[DCT1]). Pour décrire la matérialisation physique ou digitale de la ressource, il faut utiliser l'élément Format.
Elément: Format
Nom: format
Identifiant: format
Définition: La matérialisation physique ou digitale de la ressource.
Commentaire: Typiquement, Format peut inclure le media ou les dimensions de la ressource. Format peut être utilisé pour préciser le logiciel, le matériel ou autre équipement nécessaire pour afficher ou faire
fonctionner la ressource. Exemples de dimensions incluent la taille et la durée. Il est recommandé de choisir la valeur du format dans une liste de vocabulaire contrôlé(par exemple, la liste des types de media définis sur Internet [MIME]).
Elément: Identifiant
Nom: identifiant de la ressource
Identifiant: identifier
Définition: Une référence non ambiguë à la ressource dans un contexte donné
Commentaire: Il est recommandé d'identifier la ressource par une chaîne de caractère ou un nombre conforme à un sytème formel d'identification. Exemples de systemes formels d'identification incluent le "Uniform Resource Identifier" (URI) (qui inclut le "Uniform Resource Locator" (URL)), le "Digital Object Identifier"(DOI) et le "International Standard Book Number"(ISBN).
Elément: Source
Nom: source
Identifiant: source
Définition: Une référence à une ressource à partir de laquelle la ressource actuelle a été dérivée.
Commentaire: La ressource actuelle peut avoir été dérivée d'une autre ressource source, en totalité ou en partie. Il est recommandé de reférencer cette source par une chaîne de caractère ou un nombre conforme à un système formel d'identification.
Elément: Langue
Nom: langue
Identifiant: language
Définition: La langue du contenu intellectuel de la ressource.
Commentaire: Il est recommandé d'utiliser comme valeur de l'élément Langue celles definies par la RFC 1766 [RFC1766] qui comprend un code de langage à deux caractères(venant du standard ISO 639 [ISO639]), éventuellement suivi d'un code à deux lettres pour le pays (venant du standard ISO 3166 [ISO3166] ou en français [ISO3166]). Par exemple, 'en' pour l'anglais, 'fr' pour le français, ou 'en-uk' pour l'anglais utilisé au Royaume-Uni.
Elément: Relation
Nom: relation
Identifiant: relation
Définition: Une référence à une autre ressource qui a un rapport avec cette ressource.
Commentaire: Il est recommandé de référencer cette ressource par une chaîne de caractères ou un numéro conforme à un système formel d'identification.
Elément: Couverture
Nom: couverture
Identifiant: coverage
Définition: La portée ou la couverture spatio-temporelle de la ressource.
Commentaire: La couverture typiquement inclut une position géographique (le nom d'un lieu ou ses coordonnées), une période de temps (un nom de période, une date, ou un intervalle de temps) ou une juridiction (telle que le nom d'une entité administrative). Il est recommandé de choisir la valeur de Couverture dans un vocabulaire contrôlé (par exemple, un thésaurus de noms géographiques, comme[TGN]) et, quand cela est approprié, des noms de lieux ou de périodes plutôt que des identifiants numériques tels que des coordonnées ou des intervalles de dates.
Elément: Droits
Nom: gestion des droits
Identifiant: rights
Définition: Information sur les droits sur et au sujet de la ressource.
Commentaire: Typiquement, un élément Droits contiendra un état du droit à gérer une ressource, ou la reférence à un service fournissant cette information. Ces droits souvent couvrent les droits de propriété intellectuelle (IPR), Copyright, et divers droits de propriété. Si l'élément Droits est absent, aucune hypothèse ne peut être faite sur l'état de ces droits, ou de tout autre, par rapport à la ressource.
Ces éléments peuvent être définis par des qualificatifs. Les éléments Dublin Core peuvent être représentés selon différentes syntaxes : HTML (balises Meta dans la section Head= DC Creator - Content...), RDF/XML... Les concepts Dublin Core sont applicables à presque tous les formats de fichiers.
Les programmes d'indexation des outils de recherche qui sont capables d'interpréter des notices avec métadonnées effectuent une analyse à partir de la balise <HEAD> qu'ils terminent juste avant la balise </HEAD>.
⇒ TEI, Text Encoding Initiative
La TEI permet l'échange des données textuelles et d'autres types de données : images ou sons.
La Text Encoding Initiative est un projet international destiné à élaborer un ensemble de normes pour la préparation et l'échange de textes électroniques (remonte à 1987). Découle de la constation que la grande variété de formats de codage et de représentation des textes rend plus difficile l'échange des données et la communication de la recherche.
La TEI a été créée officiellement en 1988, sous l'égide de l'Association for Computers and the Humanities, de l'Association for Computational Linguistics et de l'Association for Literary and Linguistic Computing.
1994 : publication des "Recommandations pour le codage et l'échange des textes informatisés" (TEI P3) .
La TEI, basée sur le langage SGML, permet l'échange des données textuelles et d'autres types de données : images ou sons. Importance pour l'accès aux documents électroniques.
publication électronique - analyse littéraire et historique - lexicographie - traitement automatique des langues, recherche documentaire - hypertexte...
L'en-tête qui débute toute ressource électronique encodée en TEI peut être assimilé à une métadonnée, (fournit l'information catalographique + information non bibliographique, déterminante dans le traitement du texte électronique = description de la manière dont le texte a été codé; description non bibliographique / profil du texte; historique de révision).
⇒ RDF, un cadre de description
Propose un cadre de définition des métadonnées (ce n'est donc pas un modèle supplémentaire de métadonnées), quel que soit le format utilisé; doit permettre de rendre plus efficace le traitement automatisé des informations du Web, en fédérant les vocabulaires et syntaxes de description de métadonnées existantes dans un
cadre commun.
- recherche d'information, pour donner aux outils de recherche des possibilités accrues.
- catalogage : description du contenu et rapports avec les divers contenus d'un site web
- partage et échange de connaissances, via des agents logiciels intelligents
W3C - utilisation de XML - influence du Dublin Core
Objectif commun des standards et cadres de référence de métadonnées :
Fournir des éléments fins de description des documents numériques pour faciliter l'accès aux données qu'ils contiennent.
⇒ Autres système des description : l'identification des documents numériques
= DOI ou Document Oriented Interface / Interface Orientée Document.
Le DOI est un identifiant unique et persistant d'un document (texte, livre, photos, etc.).
Il se compose d'un préfixe et d'un suffixe :
Le préfixe correspond à l'identifiant de l'organisation qui a en premier enregistré le document (il ne change pas en cas de revente des droits intellectuels = persistance et donc ne peut servir à déterminer quel est le possesseur de ces droits). On obtient un préfixe auprès d'une société spécialisée (un registrar).
Le suffixe est l'identifiant du document. Il peut avoir de nombreuses formes, et notamment être constitué de l'ISBN en cas de livre.
Un DOI est enregistré avec un certain nombre d'informations complémentaires, dont le titre du document, son type, le possesseur des droits, etc. et la localisation de l'endroit où le trouver. Un système de résolution, basé sur la technologie Handle de la Corporation for National Reseach Initiative, exploite cette information de localisation et permet d'associer de manière transparente un DOI à l'URL contenant le document.
C'est à dire que la page peut changer d'adresse mais que le DOI permettra toujours de la retrouver. En d'autres termes : il vaut mieux retenir le DOI que l'URL.
Notions sur les structures du document
⇒ Distinction entre les différentes structures des documents :
- un document écrit peut être vu de différentes manières : du point de vue de son contenu, de sa mise en forme, de sa structuration en différentes parties (chapitres, paragraphes...), etc.
- un document recouvre ainsi plusieurs "structures" :
· une structure physique : succession de lignes, de paragraphes, de pages, de blocs, de caractères typographiques...
> correspond à la mise en forme du document
> correspond à l'organisation, la structuration de l'information contenue dans le document.
Mais on peut relever d'autres structures :
· une structure sémantique
· une structure temporelle, pour les documents multimédias
· des structures génériques et spécifiques :
o par exemple, les thèses ou les rapports de recherche sont organisés selon une même structure globale, dite générique (cf normes de présentation des thèses) mais chaque thèse, chaque rapport aura sa propre structure individuelle (nombre de chapitres, etc.), dite spécifique
· La distinction entre les différentes structures du document est au fondement des langages de "balisage" :
Les langages de balisage du document
SGML, HTML, XML ... sont des langage (ou des méta-langages) de balisage (markup), permettant de distinguer et de matérialiser, dans un document, ses différentes parties, par un système de parenthésage et de qualification des blocs d'information, les balises (tags).
Les parties d'un document qui doivent être distinguées sont encadrées par une paire de balises : une balise de début, ouvrante : <...>, une balise de fin, fermante : </...>
Exemple : <titre>.......</titre>
HTML est repris de SGML et intègre les liens hypertextes.
Avantages de HTML : permet une publication et une diffusion faciles de documents sur le web et la navigation hypertexte.
Définition et objet de XML :
XML signifie eXtensible Markup Language ; mais contrairement à la signification de l'acronyme, XML n'est pas un véritable langage informatique de description ou de balisage (markup) de documents, comme HTML.
XML est une méthode normalisée, une sorte de "méta-langage", permettant de créer ou de concevoir des méthodes de description des documents. Il comprend également un ensemble de spécifications ou de recommandations particulières, en cours de finalisation.
Permettre une structuration très fine de l'information, fondée sur la distinction entre :
Un ensemble de recommandations du W3C :
Pour permettre les différentes opérations de traitement informatique dans la structuration des documents, le W3C n'a pas cessé de définir plusieurs recommandations spécifiques. Par exemple :
La famille XML :
Intérêt de XML :
Applications de XML :
Applications professionnelles de XML très nombreuses et de plus en plus diversifiées, dans la production et la diffusion des documents électroniques :
- dans la gestion documentaire : transformation des bases de données classiques en bases de données XML
- dans la GED : échange de documents électroniques entre systèmes hétérogènes
⇒ XML comme nouveau format d'échange universel de données ?
- dans les "Web Services" : nouveau concept, voire nouveau paradigme de l'informatique et du web. Les "Web Services" représentent les nouvelles applications nées de (ou permises par) XML.
- Enjeux économiques majeurs du développement de XML
- dans la recherche d'information : possibilité de recherches très fines sur le contenu, sur des fragments de documents
Un exemple d'application grand public (mais invisible) de XML : le panneau d'affichage des informations sur les horaires et tous les moyens de transport à la Grande Arche de la Défense à Paris : fusion et affichage de données provenant de la RATP et de la SNCF.
Références bibliographiques de cette partie du cours sur XML :
- ROLE, François. XML et la documentation structurée : des principes aux techniques. In INRIA. La recherche d'information sur les réseaux. Cours INRIA, 30 septembre - 4 octobre 2002, Le Bono (Morbihan). Paris : ADBS, 2002, p. 71-97
- Le XML expliqué à vos enfants. Archimag, n° 159, novembre 2002
Question forte posée aujourd'hui aux professionnels de l'information :
cf la Journée d'étude de l'ADBS en avril 2002, intitulée :
"Du thésaurus au web sémantique : les langages documentaires ont-ils encore un avenir ? "
Quelques remarques sur les évolutions en cours :
L'importance de la question de l'indexation :
la question de l'indexation des ressources électroniques est LA question centrale de la nouvelle économie du savoir en émergence :
distorsion entre la facilité d'accès au document physique et la faiblesse de l'accessibilité sémantique :
problème n° 1 sur le web : comment trouver l'information pertinente ?
Un constat : toutes les formes et tous les modes d'indexation présents sur Internet :
Opposition fréquente mais artificielle des deux grands modes d'indexation :
En fait, complémentarité de plus en plus forte des deux approches, dans différents systèmes documentaires