Au lieu de faire une description exhaustive des unités lexicales de la langue portugaise, nous avons préféré faire une description plus simple mais qui permettra la reconnaissance des syntagmes nominaux et leur extraction, le but premier de ce travail. Il est vrai que nous avons laisser quelques aspects de côté comme les éléments anaphoriques, les pronoms relatifs et les conjonctions de subordination.
En ce qui concerne les éléments anaphoriques nous avons déjà expliqué les raisons de ne pas travailler actuellement ce point, c’est à la suite de cette décision que nous n’avons pas créé de variables pour aider la résolution des problèmes des anaphores. Il nous semble, d’autre part, qu’outre les variables PE et AN, il faudrait en établir d’autres pour représenter des traits sémantiques visant à aider la résolution des anaphores. En effet, ce sont des variables à être défini par l’étude de résolution des anaphores.
Par rapport aux pronoms relatifs et aux conjonctions de subordination, ces unités ne font pas partie de la grammaire d’extraction des syntagmes nominaux. Nous envisageons de les traiter plus tard dans une étude plus approfondie. Ceci parce que la syntaxe concernant les syntagmes nominaux ayant des pronoms relatifs et des conjonctions de subordinations sont trop diversifiés. Il faut d’abord vérifier la possibilité de régulariser les unités de ces deux catégories et essayer de les réduire comme on a procédé pour le français. Cette procédure de réduction peut aider à définir une syntaxe pour ce type de syntagme nominal. Bien que les formes syntaxiques de ce type de syntagme nominal soit très disperse, le nombre total n’est pas trop élevé dans le corpus, il ne représente que 4,8% de tous les syntagmes nominaux.
D’une manière générale nous avons crée des variables qui sont capables d’aider à reconnaître des unités qui constituent un syntagme nominal. Outre les variables caractérisées dans l’axe de la syntaxe, du lexique et de la flexion, nous avons crée une variable spéciale de caractère générique (RG). Cette variable permet d’établir des règles pour lever l’ambiguïté et pour le pré-traitement concernant la régularisation des amalgames. C’est une variable dont l’ensemble de valeurs est ouvert. Nous avons établi des catégories, sous-catégories pour aider l’analyse morpho-syntaxique, mais ce travail n’est pas exhaustif, nous n’avons pas traité tous les homonymes. Au fur et à mesure que l’étude des anaphores et des conjonctions de subordination, ainsi que la mise à jour de la base LEXIQUE sera approfondie, d’autres variables et valeurs seront certainement définis.
Concernant le modèle de données pour la base de données LEXIQUE, il s’agit d’un modèle relationnel, donc très souple permettant d’inclure des nouvelles variables et des nouvelles tables. Il nous semble que la structure est maintenant stable, la seule chose qui puisse changer, sont des variables et leurs valeurs, c’est-à-dire que nous pourrons créer des nouvelles variables et aussi de nouvelles valeurs de variables déjà existantes. Le module SIDUL doit être un module plus souple aussi, étant donné que la variable RG lui demandera parfois de voir les unités qui ont été prises et aussi de prendre la suivante pour enlever des ambiguïtés éventuelles.
Dans le prochain chapitre nous décrirons la grammaire de reconnaissance et d’extraction des syntagmes nominaux.
« ‘
La principale fonction de l'Art est de construire des types sur la base fournie par la Science
’. »
Comte (Auguste), Système de politique positive