La structuration des documents en XML

La numérisation se fait, actuellement, selon la recommandation du consortium W3C, en XML, qui est un langage à balises. L’intérêt du langage XML est de baliser le contenu et/ou la structure des documents afin de faire des traitements à l’intérieur de ces documents, ex : l’automatisation de certaines tâches telles que la constitution des index.

Pour pouvoir baliser les documents en format XML, il faut une création préalable de la DTD (Définition du Type de Document). En effet, la structure arborescente du document XML (imbrication des balises, leur caractère obligatoire ou facultatif et leur ordre de successions….), est déclarée formellement dans le corps du document XML ou dans un fichier à part. Cette déclaration est appelée DTD. Elle s’effectue selon un formalisme particulier normé lui aussi dans la spécification XML. En XML cette déclaration est facultative, ce qui donne une grande souplesse aux développeurs. La DTD définit, donc, le nom des éléments, leur contenu et leur ordre hiérarchique ainsi que les attributs et le nom des entités utilisées 257 .

Pour la structuration des document en XML, on peut construire sa propre DTD ou se baser sur une DTD existante. La création de la DTD représente un des coûts importants pour la production du contenu numérique. Certes, cette activité ne nécessite pas des créateurs du contenu des investissements énormes au niveau matériel, mais l’ensemble des tâches constitue un volume de temps de travail conséquent ainsi que des compétences que les éditeurs ne possèdent pas. Cette difficulté à disposer des ressources nécessaires en interne amènerait les différents éditeurs à la sous-traitance de cette activité. Les producteurs pourront, donc, investir dans les activités de structuration des documents en XML.

Sur la chaîne du traitement des revues électroniques en XML, les acteurs pourront proposer les activité suivantes (voir schéma 2 ) :

  • La construction et/ou le développement des spécifications d’une DTD existante. Puisqu’il y a un nombre important de DTDs normalisées et recommandées pour la structuration des articles en XML, (TEI, DocBook, etc), les producteurs des BDDs bibliographiques auront à choisir celle qui correspond au mieux à la spécificité des documents à structurer et à développer certains éléments de la DTD qui sera appliquée.
  • La définition des fiches des métadonnées compatibles avec la DTD, destinées à l’auteur qui devrait à son tour respecter les consignes typographiques recommandées par l’éditeur et remplir la fiche des métadonnées de son article.
  • L’indexation du contenu de l’article en se basant sur une ontologie et l’attribution d’un identificateur (identifier) de manière à permettre la localisation et l’archivage de l’article.
  • le « parsage » (la vérification de la validité de document balisé ) à l’aide d’un outil comme (xmlSpy). Ensuite la conversion du document XML en un format d’affichage, tel que XHTML, PDF, etc., en utilisant une feuille de style en XSL.

En effet, l’INIST se lance dans des activités de production des documents en XML et développe, en partenariat avec des éditeurs des revues en SHS, des projets de structuration des revues en XML. Tel est le cas du projet REVELEC* pour le traitement en XML de la revue électronique ALSIC (Apprentissage de Langue et Système d’Information et de Communication) 258 .

L’implication des producteurs de bases de données bibliographiques devrait s’étendre à d’autres types de contenu numérique. En effet, la demande des activités de mise en forme numérique (langages structurés, métadonnées) est en croissance. Elle touche non seulement les éditeurs scientifiques, mais aussi les différentes sociétés commerciales (juridiques, financières. etc), des institutions gouvernementales ainsi que les bibliothèques pour la numérisation et l’archivage des collections importantes.

Figure (4) Chaîne de traitement des articles en XML
Figure (4) Chaîne de traitement des articles en XML

Notes
257.

Alain Michard. XML langage et applications. Edition Eyrolles. 2001.

258.

Edition électronique, http://www.inist.fr/DEMOS/revelec.pdf . Consulté le 09/02/2004.