La démarche choisie consiste à organiser et établir les catégories des unités lexicales selon leurs propriétés distributionnelles dans le discours. En fait, au début il y avait trois approches possibles, soit on utilisait les catégories existantes dans la grammaire traditionnelles (substantifs, adjectifs, pronoms, verbes, articles, etc.), soit on adaptait un modèle différent de celui de la grammaire traditionnelle (comme celle conçue par Alain BERRENDONNER) soit on développait une autre grammaire. Or, le premier choix avait les inconvénients déjà cités dans la section précédente. Le troisième exigeait des connaissances linguistiques beaucoup plus approfondie et demanderait plus de temps. Ce n’était pas possible de le réaliser dans le cadre de cette recherche, cette troisième voie pourrait être objet d’une autre thèse, telle est la complexité. Il était hors question de la prendre. La meilleure solution était donc de faire une adaptation de l’approche proposée par Alain BERRENDONNER pour le portugais.
Pour une question de compatibilité avec le modèle de classification conçu pour la langue française, on cherchera à utiliser la même notation, aussi bien pour les catégories que pour les variables et leurs valeurs. Nous avons adopté quand même quelques valeurs particulières pour celles déjà prises pour la langue française étant donné soit la spécificité de la langue portugaise, soit le but de ce modèle : reconnaître et extraire les SN.
Ainsi, la catégorie majeure sera désignée par un caractère, les variables de sous-catégorisation seront désignées par deux caractères et finalement les valeurs possibles pour chacune des variables de sous-catégorisation seront indiquées par trois caractères. La valeur non marquée sera toujours le nom de la variable de sous-catégorisation plus une lettre ‘N’ à la fin.
Pour le pré-traitement des amalgames, nous avons adopté d’indiquer cette procédure à travers une variable appelée RG (règles), et la valeur appelée PRE. Cependant, l’indication du pré-traitement, n’est pas suffisant, il faut indiquer aussi respectivement quels sont leurs éléments primaires et leur catégorie. Ces indications seront faites dans une relation ou table grâce à la structures de la base de données LEXIQUE. Nous allons adopter cette procédure parce que le module d’analyse SIDUL doit analyser les constituants primaires, connaissant d’abord leurs caractéristiques. En fait, PRE est une des valeurs possibles pour la variable appelé RG. Cette variable doit comprendre d’autres règles, qui seront discutées au fur et à mesure qu’elles sont crées dans ce chapitre.
Exemple : ao => a + o=> (ao, PRE, a, P, o, D) [au => à + le => (ao, PRE, à, P, le, D)]
Dans cet exemple, on interprète les paramètres présents entre les parenthèses comme étant une unité lexicale qui est constituée par une contraction d’une préposition ‘a’ avec un article ‘o’, où le code PRE indique qu’il faut faire un pré-traitement, c’est-à-dire la décomposition de ‘ao’ en ‘a’ P, préposition, et ‘o’ D, déterminant.
On montrera à la fin de ce chapitre la structure de la base de données LEXIQUE.
Ainsi que dans la langue française, les unités lexicales du vocabulaire de la langue portugaise seront reparties en 10 (dix) classes majeures. Le modèle adopté par Alain BERRENDONNER est basé ‘ « sur les propriétés distributionnelles considérées comme principales (=celles qui caractérisent le comportement d’un mot au regard de la syntaxe de constituants). » ’ 109 .
Cependant les catégories ne sont pas suffisantes pour représenter, elles seules, la totalité du comportement combinatoire d’un mot. Ainsi ; ce modèle est composé, outre les catégories majeures, de quatre types de variables, appelées variables de sous-catégorisation :
Nous allons décrire maintenant chaque catégorie et ses particularités en les discutant et établissant les solutions possibles pour chaque cas. Cette discussion sera menée en ayant le corpus de syntagmes nominaux extraits dans le cadre de notre mémoire de DEA comme base. Dans certains cas, nous avons pris des exemples dans la grammaire de Celso CUNHA & Lindley CINTRA. Il faut dire que des constructions syntaxiques plus courantes dans la littérature et dans la poésie ne sont guère utilisées dans le discours technique. Dans ce sens là, ce travail n’est pas exhaustif.
Alain BERRENDONNER. Grammaire pour une analyseur :aspects morphologiques. Les Cahiers du Criss. Grenoble :Centre de Recherche en Informatique appliquée aux Sciences Sociales. Université des Sciences Sociales de Grenoble, Novembre, 1990. p. 18.