2.3 Réalisation informatique

Au cours de ces dernières décennies, les acteurs du domaine du TAL ont progressivement pris conscience de l’enjeu que constituent les dictionnaires électroniques et de l'importance des modalités d'implémentation. Le choix du formalisme de représentation des connaissances linguistiques, doit être pris en considération en priorité puisqu'il est un élément central et structurant dans la conception des applications de TAL. Ainsi, le contenu, le volume et le format du dictionnaire dépendent du formalisme choisi et favorisent des traitements linguistiques par rapport à d’autres.

Un dictionnaire électronique, sans pour autant être exhaustif, doit contenir le maximum de connaissances sur la langue étudiée. Selon le type d’application visé, ces connaissances seront de nature différente (phonologique, morphologique, syntaxique, sémantique, pragmatique, etc.) et de niveaux de structuration et de granularité différents. Si l’on souhaite être indépendant des traitements qui seront associés ou envisagés, on doit modéliser toutes ces informations linguistiques dans le même dictionnaire.

Les difficultés liées à la gestion de cette énorme quantité d’informations ont poussé les spécialistes à recourir aux techniques informatiques de représentation des connaissances, dont les bases de données de type relationnel, qui sont plus connus dans le domaine du TAL sous l’appellation de base de données lexicale.

L’organisation des données avec un système de gestion des bases de données (SGBD) assure une quasi parfaite indépendance entre données et programmes, mais surtout permet l’évolution du dictionnaire à travers le temps. En effet, les SGBD permettent d'étendre la couverture de la base de données lexicale à des niveaux de traitements non prévus au début de l'implémentation sans que cela n'affecte la structure globale de la base ni les programmes déjà réalisés, à condition que ces derniers soient bien conçus au départ.

Initialement, les données linguistiques issues de la conception linguistique ont été implémentées dans une base de données multi-fichiers DIINAR.1 qui fonctionnait sous le système d’exploitation MS-DOS (Gader 96) et (Ghenima 98). Cette première version a permis de saisir environ 20000 entrées verbales et 39000 entrées nominales. Cette base avait l’inconvénient d’être dépendante des programmes qui la gèrent et ne pouvait être exploitée qu’à travers une connaissance approfondie du code source.

Nous avons alors pris la responsabilité de faire émigrer DIINAR.1 dans une nouvelle base de données relationnelle, indépendante des langages de requêtes et de programmation qui pourraient l’exploiter. Cette émigration¹⁸ a considérablement facilité notre travail de maintenance de la base et son exploitation. Nous avons pu générer des sous-lexiques adaptés aux différents besoins des autres membres de notre équipe. Par exemple, Pour les besoins de l’analyseur syntaxique, nous avons pu générer un lexique adapté sous forme d'une liste de prédicats.

Les principaux critères d’évaluation d’une base de données lexicale sont d’une part, la couverture, c’est à dire le nombre d’entrées, et d’autre part, l’exactitude et la précision des informations linguistiques. Le premier critère étant presque atteint avec DIINAR.1, nous nous sommes plutôt employés à mettre à jour la base pour atteindre le second objectif.

Dans cette section, nous décrirons grossièrement¹⁹ les parties de la base relatives à la gestion des verbes, des déverbaux et des noms de DIINAR.2. Les deux nouvelles parties de la base de données, correspondants aux mots outils et aux noms propres, seront plus détaillées et décrites dans des sections indépendantes puisqu'elles n'ont jamais fait l'objet d'une présentation.

Notes

18.

Le travail d’émigration a impliqué des modifications au niveau de la structure de la base de données et le développement de programmes informatiques pour l’automatisation du processus.

19.

Pour plus de détails sur la réalisation de DIINAR.1, nous renvoyons le lecteur à la thèse de Ghenima (1998).