La numérisation se fait, actuellement, selon la recommandation du consortium W3C, en XML, qui est un langage à balises. L’intérêt du langage XML est de baliser le contenu et/ou la structure des documents afin de faire des traitements à l’intérieur de ces documents, ex : l’automatisation de certaines tâches telles que la constitution des index.
Pour pouvoir baliser les documents en format XML, il faut une création préalable de la DTD (Définition du Type de Document). En effet, la structure arborescente du document XML (imbrication des balises, leur caractère obligatoire ou facultatif et leur ordre de successions….), est déclarée formellement dans le corps du document XML ou dans un fichier à part. Cette déclaration est appelée DTD. Elle s’effectue selon un formalisme particulier normé lui aussi dans la spécification XML. En XML cette déclaration est facultative, ce qui donne une grande souplesse aux développeurs. La DTD définit, donc, le nom des éléments, leur contenu et leur ordre hiérarchique ainsi que les attributs et le nom des entités utilisées 257 .
Pour la structuration des document en XML, on peut construire sa propre DTD ou se baser sur une DTD existante. La création de la DTD représente un des coûts importants pour la production du contenu numérique. Certes, cette activité ne nécessite pas des créateurs du contenu des investissements énormes au niveau matériel, mais l’ensemble des tâches constitue un volume de temps de travail conséquent ainsi que des compétences que les éditeurs ne possèdent pas. Cette difficulté à disposer des ressources nécessaires en interne amènerait les différents éditeurs à la sous-traitance de cette activité. Les producteurs pourront, donc, investir dans les activités de structuration des documents en XML.
Sur la chaîne du traitement des revues électroniques en XML, les acteurs pourront proposer les activité suivantes (voir schéma 2 ) :
En effet, l’INIST se lance dans des activités de production des documents en XML et développe, en partenariat avec des éditeurs des revues en SHS, des projets de structuration des revues en XML. Tel est le cas du projet REVELEC* pour le traitement en XML de la revue électronique ALSIC (Apprentissage de Langue et Système d’Information et de Communication) 258 .
L’implication des producteurs de bases de données bibliographiques devrait s’étendre à d’autres types de contenu numérique. En effet, la demande des activités de mise en forme numérique (langages structurés, métadonnées) est en croissance. Elle touche non seulement les éditeurs scientifiques, mais aussi les différentes sociétés commerciales (juridiques, financières. etc), des institutions gouvernementales ainsi que les bibliothèques pour la numérisation et l’archivage des collections importantes.
Alain Michard. XML langage et applications. Edition Eyrolles. 2001.
Edition électronique, http://www.inist.fr/DEMOS/revelec.pdf . Consulté le 09/02/2004.