THESE
pour obtenir le grade de
Docteur
de l’université Lumière Lyon II
Discipline : Science de l’information et de la communication
L’accès à distance aux manuscrits arabes
numérisés en mode image
Sous la direction de Monsieur Richard Bouché
Soutenue le 28 Janvier 2004 devant la Commission d’Examen
Jury  :
M. Richard Bouché , Directeur de thèse
M. Wahid Gdoura , Rapporteur
M. François Deroche, Rapporteur
M. Mohamed Hassoun
M. Franck LeBourgeois
M. Abdelaziz Abid

Remerciement

Je remercie infiniment M. Richard Bouché, mon directeur de thèse, pour son encadrement, pour son aide et ses conseils durant ce travail. Qu’il trouve ici le témoignage de ma gratitude et reconnaissance.

Mes remerciements à M. François Déroche et M. Wahid Gdoura pour avoir accepter d’évaluer ce travail en tant que rapporteurs.

Je tiens à remercier chaleureusement M. Franck LeBourgeois de son acceptation comme membre du jury et de sa coopération. Grâce à son soutien, notre travail concernant l’extraction semi-automatique des métadonnées à partire des images de manuscrits arabes a pû aboutir. Qu’il trouve ici le témoigne de ma reconnaissance.

Je remercie également M. Abdelaziz Abid et M. Mohamed Hassoun d’avoir accepté de participer au jury de thèse.

J’expresse ma gratitude aux personnels du service d’informatique à l’enssib pour leur aide dans le placement de la base de données sur le serveur de l’enssib.

Je remercie également M. GuillaumeBourgois, pour sa coopération dans la création de la base de données sur SDX.

J’express ma gratitude à Mm. Marie-Geneviève Guesdon pour son aide et son conseil durant ma recherche et mes études des manuscrits arabes, Mm. Claire Ponnatau pour le relecture de ma thèse.

Enfin, je remercie mes parents, mes frères et sœurs pour leur soutien et leur aide. Je remercie également mes amies pour leur soutien.

A ma famille et à mes aimes

Résumé

Notre travail de thèse s’inscrit dans le cadre de la numérisation d’un patrimoine rare et précieux notamment les manuscrits arabes anciens. Grâce aux nouvelles technologies, l’accès à distance à ces manuscrits exige tout une chaîne de processus qui commence par la numérisation (21 manuscrits sont déjà numérisées), suivi par la création de métadonnées propres aux manuscrits arabes (173 métadonnées ont été créées). Le format XML (eXensible Markup Language) a été utilisé pour définir la DTD par l’aide de l’éditeur XML spy. L'objectif de la DTD est de pouvoir définir un modèle de données formel. Les métadonnées proprement dites nous ont permis de créer une base de données avec le logiciel SDX (Système Documentaire XML). L’utilisation d’algorithme de reconnaissance de formes, permettant l’extraction semi-automatique des métadonnées à partir des images de manuscrits arabes, est un travail original prometteur. Il a été fait en coopération avec le laboratoire RFV-INSA.

Mots clès

Base de données ; DTD ; Manuscrits arabes ; Métadonnées ; Numérisation ; Reconnaissance de formes ; SDX ; Sauvegarde du patrimoine, XML,

Summary

Our PHD thesis is situated within the domain of culture heritage digitisation, the rare and precious document mainly the Arab manuscripts. Using new technologies of information, the remote access to these manuscripts requires a series of process, beginning with the technique of digitisation (21 manuscripts are already digitised), followed by the creation of metadata specific to the Arab manuscripts (173 metadata are created). The XML (eXensible Markup Language) format and especially the XML spy editor was used to define the DTD (Document Type Definition). The objective of the DTD is to define a formal data model. Based on these metadata we were able to create a database by using the SDX (Documentary System XML) software. A plateform for the image recognition, and in particular the semi-automatic metadata extraction from the Arab manuscripts images, is an original work which gives a promising result, was developped in co-operation with the RFV laboratory of the INSA Lyon.

Keywords :

Arabic manuscript ; Culture heritage conservation ; D TD ; Database ; Digitisation ; Forme recongnition ; Metadata ;  Metadata semi-automatic extraction ; SDX ; XML