Introduction à la TEI, Text Encoding Initiative

Informations sur la session
Thème: 
Produire et publier : production et traitement du document numérique, édition électronique, publication scientifique, propriété intellectuelle
Publics prioritaires: 
Enseignant du supérieur, chercheur Doctorant
Formateur: 
Gwenaëlle PATAT
Reponsable de la formation: 
Rémi JOINVILLE
Tags: 
TEI
traitement du document
encodage numérique

Objectifs

Née en 1987, la Text Encoding Initiative (TEI), littéralement l’Initiative pour le balisage de textes, est un dispositif au cœur des humanités numériques qui joue un rôle central dans la préservation et la mise à disposition des corpus textuels produits et analysés dans le cadre de la recherche en Sciences Humaines et Sociales. Le langage XML-TEI constitue effectivement une solution pour assurer la préservation des contenus textuels dans un format stable et interchangeable, répondant ainsi aux exigences des principes FAIR (produire des données Faciles à trouver, Accessibles, Interopérables, Réutilisables) et de la science ouverte.



La formation sera donc l'occasion de :





  • comprendre la naissance et le fonctionnement du langage XML-TEI ;




  • connaître les principes essentiels pour structurer et documenter l'encodage de ses corpus textuels selon le type d'édition visé ;




  • s'initier à des solutions pour explorer et publier son corpus.



Programme

1) Introduction à l'XML-TEI : pourquoi encoder ses corpus ?



1.1 Historique de la création de l'XML-TEI



1.2 Qu'est ce que le format XML ?



1.3 Qu'est ce que la TEI ?



2) Créer son édition scientifique numérique



2.1 La TEI au service de son édition



2.2 Construire et documenter son schéma d'encodage (et s'y tenir !)



2.3 Travaux pratiques : définir un premier balisage pour son corpus



3) Exploiter son édition numérique



3.1 Fouiller dans ses données (XPath et XQuery)



3.2 Transformer ses données (XSLT)



3.3 Publier son corpus (TeiPublisher, MaX, EVT)

Prérequis

Les participants sont invités à venir avec leur corpus. Si ce n’est pas le cas, un corpus de démonstration sera accessible sur un dépôt GitLab public.
Logiciels à installer : Oxygen XML Editor - BaseX - TeiPublisher (via Docker).
Être familier de la notion de donnée et de corpus.

Prochaine session

Rappel : les stages sont gratuits pour tous les personnels d’établissements d’enseignement supérieur et de recherche, ainsi que pour les doctorants.