2.6 Maintenance de la base de données lexicale DIINAR.1

Dans un système d’analyse linguistique utilisant un dictionnaire, le traitement des échecs n’est autre qu’un problème de maintenance du dictionnaire. En effet, ces échecs sont dus, soit à une simple absence des mots du dictionnaire, soit à une insuffisance des traits linguistiques. Ainsi, les modifications que nous apportons à la structure et au contenu du dictionnaire DIINAR permettent de pallier les échecs d'analyse et d'améliorer les performances des applications.

L'enrichissement de la base de données lexicale par des modules de gestion des mots outils et des noms propres, a constitué un premier apport au travail de maintenance de la base. Nous avons, d'autre part, apporté quelques modifications à la structure de la base de données verbale dont notamment l'association d'un schéma syntaxique à chaque entrée verbale. Ces schémas sont certes rudimentaires et ne permettent pas à eux seuls d’obtenir une analyse syntaxique performante, mais ils permettent de diminuer le nombre d’ambiguïtés lors de l’analyse syntaxique30.

Chaque schéma syntaxique admet un sujet et peut avoir jusqu'à trois compléments directs ou indirects31 lorsque le verbe est transitif. Chaque argument de ce schéma est défini par un ensemble de traits reflétant sa nature (nom simple – syntagme nominal, etc.) et ses propriétés catégorielles (humain / non humain / concret / abstrait / animé / non animé).

Le travail de maintenance a consisté aussi en la mise à jour des données de la base. Nous avons ainsi associé aux différentes applications une base de données "corbeille" qui permet d'enregistrer toutes les chaînes de caractères non analysées par le système avec leur contexte. Pour le traitement de ces échecs, nous avons mis à la disposition de l'expert linguiste un module qui parcourt la corbeille et qui lui permettra d'accéder aux différentes interfaces de DIINAR afin d'effectuer les mises à jour nécessaires.

Notes
30.

Ces informations vont notamment pouvoir être intégrées dans l’analyseur syntaxique LARUSA, qui fonctionne à partir d’une grammaire de format AGFL (Ditters, 1992) obtenue à partir d’un lexique généré de la base de données lexicale DIINAR.1 (ouersighni, 2001) et (ouersighni, 1998).

31.

Lorsque le complément est indirect, la préposition est spécifiée parmi l’une de ces huit prépositions : بَيْنَ – مِنْ – إِلَى – عَنْ – عَلَى – فِي – بِ – لِ.