4.1 Esquisse de la structure de la base de donnée LEXIQUE

La démarche à suivre est celle de l’identification de l’unité lexicale, une fois que le module SIDUL a fait la segmentation du texte, c’est-à-dire qu’il a pris une unité lexicale, il doit accéder à la base de données pour vérifier si l’unité extraite existe ou non. C’est le rapport d’existence, on le montre dans la figure 9.5.

Les numéros (1) présentés dans la figure 9.5 indiquent qu’à chaque unité lexicale correspond 1 seul code. Une fois vérifiée l’existence d’une unité lexicale : si le mot existe, il faut chercher ses caractéristiques ; sinon il faut l’enregistrer avec toutes celles-ci.

Il faut entamer une procédure de création de l’enregistrement de l’unité si elle n’existe pas encore dans la base LEXIQUE.

Une fois que l’unité cherchée existe et, si on a le code d’identification de cette unité, il faut un autre rapport pour trouver ses caractéristiques. Dans la figure 9.6, on montre ce rapport, appelé CARACTERISATION.

Dans la figure 9.5, le numéro 1 à coté de la relation ULEX et le caractère N à côté de la relation CARACTERISTIQUES montrent qu’avec chaque unité lexique on peut avoir plus d’un enregistrement de caractéristiques. C’est parce que des unités présentent la même forme et participent à des catégories différentes. Exemple : ‘o’ peut être aussi bien un prédéterminant (D) qu’une particule préverbale (Y). A partir de ce rapport l’analyseur aura toutes les variables d’une unité lexicale donnée, c’est-à-dire toutes les caractéristiques prévues par la grammaire qu’on est en train de concevoir.

Pourtant, il existe des variables que nécessitent de chercher plus d’informations. Exemple : la variable NC a une valeur parmi 1CO, 2CO, 3CO et 4CO, cela signifie qu’il faut encore savoir quelles sont les prépositions susceptibles d’apparaître avec chaque complément. Pour trouver ces prépositions on a le rapport VOIR PREP, montré par la figure 9.7.

Cette figure montre encore qu’avec chaque unité lexicale on peut avoir plus d’une combinaison de prépositions, ce qui est indiqué par le caractère N en bas du losange.

D’autres informations peuvent être nécessaires comme les unités constituantes d’une unité lexicale contractée. Lorsqu’on trouve dans la variable RG, attribut de la relation ULEX, une valeur PRE, cela signifie que l’unité lexicale identifiée est un mot contracté et qu’il faut faire un pré-traitement, c’est-à-dire qu’il faut restituer ses composants pour pouvoir les traiter individuellement. Pour cela, on utilise le rapport VOIR COMPOSANTS, montré dans la figure 9.7.

Les numéros 1 à coté de chaque relation indique qu’à chaque unité contracté il n’y a qu’un seul ensemble de composants. A partir des données obtenues par le rapport VOIR COMPOSANTS l’analyseur peut retrouver les caractéristiques de chaque composant à travers le rapport Caractérisation.