Chapitre 2
Présentation de la base de données lexicale DIINAR.1

‘« Il semble que la perfection soit atteinte non quand il n'y a plus rien à ajouter, mais quand il n'y a plus rien à retrancher. » Antoine de SAINT-EXUPÉRY’

2.1 Introduction

Les progrès technologiques ont permis l’accroissement des volumes de données stockés sur des supports magnétiques et la rapidité de leur traitement. C’est ainsi qu’on assiste à l’émergence de dictionnaires électroniques 12, qui semblent être très utiles, voire indispensables de par la quantité d’informations de natures diverses qu’ils contiennent aux applications linguistiques et plus particulièrement à l’élaboration d’activités d’apprentissage.

La construction d’un dictionnaire électronique fiable et utilisable par diverses applications, implique des prises de décisions portant sur le contenu et le format des données, aussi bien au niveau linguistique qu’au niveau informatique : « A partir d’observations sur le fonctionnement des langues, la linguistique informatique construit des concepts et des modèles, qu’elle valide ensuite par une simulation informatique » (Desclés, 1989, p.14).

Nous introduirons ce chapitre par les fondements linguistiques, qui ont servi à la conception de la base de données lexicale DIINAR.1 (DIctionnaire INformatisé de l’ARabe). Nous détaillerons ensuite la réalisation informatique en énumérant les différents constituants du dictionnaire, dont les nouvelles parties des mots outils et des noms propres.

Cette base de données servira principalement à générer le lexique qui sera utilisé par l’analyseur. L’exploitation de ce dernier, entraîne souvent la détection de nouveaux mots absents du dictionnaire, qui doivent être codées avant d’être intégrés. La maintenance du dictionnaire constitue un moyen important pour l’amélioration des résultats d’analyse et doit par conséquent être traitée avec le plus grand soin. L’examen de cette tâche tout à fait particulière fera l'objet d'une présentation à la fin du chapitre.

Notes
12.

Dans le domaine du TALN, on désigne sous ce terme des dictionnaires associés à des bases de données qui sont créés pour un traitement linguistique informatisé. De tels dictionnaires ne doivent pas être confondus avec les dictionnaires usuels mis sur support électronique (tels par exemple le Robert pour le français, ou le Longman pour l’anglais), que nous traiterons dans le sixième chapitre de cette thèse.