3.3 Consolidation des catégories et variables

Afin d’organiser et de résumer ce chapitre, nous allons consolider les catégories définies et les variables établies pour caractériser les unités lexicales.

En ce qui concerne la caractérisation majeure, celle des unités lexicales, nous en avons établi 10 (dix) différentes, qui ne recouvrent pas exactement celles définis pour la langue française, du fait de l’inexistence de la catégorie G, celle de la particule de négation (ne), laquelle correspond en portugais à « não ». Nous obtenons les catégories suivantes :

F
Nominaux ;
V
Verbes ;
D
Prédéterminants ;
Y
Particules préverbales ;
P
Prépositions ;
C
Conjonctions de coordination ;
Q
Conjonctions de subordination ;
W
Adverbes ;
E
Nombres ;
T
Ponctuations.

En ce qui concerne les variables de sous-catégorisation nous avons défini :

  1. NA – Type Nominaux dont les valeurs sont : NA = {NOM, ADJ, NAN} ; NOM – pour indiquer le type Noms, substantifs ; ADJ – pour indiquer le type Adjectif ; NAN – non marqués.
  2. PG – Participe / Gérondif dont les valeurs sont : PG = {PAR, GER} ; PAR – pour indiquer que le verbe est au Participe ; GER – pour indiquer que le verbe est au Gérondif.
  3. VB – Formes verbales dont les valeurs sont : VB = {INF, FIN} ; INF – pour indiquer que le verbe est à l’Infinitif ; FIN – pour indiquer que le verbe est fléchi ou fini. 
  4. VX – Type de verbe dont les valeurs sont : VX = {AUX, ORD} ; AUX – pour indiquer que le verbe est un verbe auxiliaire [ter(avoir), haver(avoir), ser(être) et estar(être)] ; ORD – pour indiquer tous les autres verbes.
  1. GR – Flexion en Genre dont les valeurs sont : GR = {MAS, FEM, GRN} MAS pour indiquer que l’unité est au masculin ; FEM pour indiquer que l’unité lexicale est au féminin ; GNR pour indiquer que l’unité lexicale est non marquée.
  2. NB – Flexion en Nombre dont les valeurs sont : NB = {PLU, SIN, NBN} PLU pour indiquer que l’unité est au pluriel ; SIN pour indiquer que l’unité est au singulier ; NBN pour indiquer que l’unité est non marquée.
  3. PE – Flexion en Personne dons les valeurs sont : PE = {PE1, PE2, PE3, PE4, PE5} PE1 indique la première personne du singulier, cas de eu  (je) ; PE2 indique la deuxième personne du singulier, tu (tu) ; PE3 indique la troisième personne, cas de ele, ela, eles, elas (il, elle, ils, elles) ; PE4 indique la première personne du pluriel, cas de nós (nous) ; PE5 indique la deuxième personne du pluriel, cas de vós (vous).
  1. NN – Type de Noms dons les valeurs sont : NN = {PRP, COM, PRO} PRP – pour indiquer les noms propres ; COM – pour indiquer les noms communs ; PRO – pour indiquer les pro-formes nominales.
  2. VN – Type de nom commun dont les valeurs sont : VN = {CON, ABS } CON – pour indiquer les noms concrets ; IMM – pour indiquer les noms abstraits.
  3. NU – Type de prédéterminants dont les valeurs sont : NU = {NUM, NNU} NUM – pour indiquer les prédéterminants quantitatifs ou numéraux ; NNU – pour indiquer les autres prédéterminants.
  4. TD – Type de détermination dont les valeur sont : {DEF, IND} DEF – prédéterminant défini (o, os, a, as, este, esta, estas, essas, etc.) IND – pour désigner les prédéterminants non définis (um, algum, alguma, qualquer, etc.)
  5. AN – Type d’animation dont les valeurs sont : AN = {ANI, INA, ANN } ANI – pour indiquer le caractère animé ; INA – pour indiquer le caractère inanimé ; ANN – pour indiquer le caractère non marqué.
  6. TC – Type de nombre dont les valeurs sont : TC = {INT, DEC} INT – pour indiquer les nombres entiers ; DEC – pour indiquer les nombres décimaux.
  7. NC – Nombre de compléments dont les valeurs sont : NC = {0CO, 1CO, 2CO, 3CO, 4CO}Les valeurs indiquent le maximum de compléments qu’une unité lexicale peut demander. 0CO – indique que l’unité n’exige aucun complément ; 1CO – indique que l’unité exige un complément ; 2CO – indique que l’unité exige deux compléments ; 3CO – indique que l’unité exige trois compléments ; 4CO – indique que l’unité exige quatre compléments.
  8. TA – Type d’Adjectifs dont les valeurs sont : TA = {QUA, REL} QUA indique les adjectifs de qualité ; REL indique les adjectifs de relation.
  9. TW – Type d’Adverbes dont les valeurs sont : TW= {QUA, AAJ, PRO, TAM, NEG} QUA indique que l’unité en question est un adverbe de quantité ; AAJ indique que l’unité en question est un adverbe qui modifie un adjectif ; PRO pour indiquer les adverbes anaphoriques ; TAM pour indiquer les adverbes de temps, aspects et mode. NEG pour indiquer que l’unité en question est un adverbe de négation. (não).
  10. VP - Type de ponctuation dont les valeurs sont : VP= {PSP, PSM, PDP, PSU} PSP indique à l’analyseur que l’unité reconnue est une sorte de ponctuation marquant une frontière de phrase {. | ? | ! } ; PSM indique à l’analyseur que l’unité reconnue est une sorte de ponctuation marquant la séparation des composants d’une phrase {, | ; | :} ; PDP indique à l’analyseur que l’unité reconnue est une partie d’une double ponctuation. C’est-à-dire, soit un guillemet d’ouverture ou de fermeture, soit une ouverture ou une fermeture de parenthèses, soit une ouverture ou fermeture de tiret (sachant que la fermeture d’un membre initié par un tiret peut être un point final) ; PSU indique la fin d’une énumération (point de suspension /…/) et a le rôle d’un point marquant la frontière d’une phrase. En ce cas, il nous semble important qu’il appartienne au SN, simplement pour laisser la marque de fin d’une probable séquence d’énumération.
  1. RG – Type de règles dont les valeurs sont : RG = { VSV, NSP, PRE, NSD, ANA, PPN, TOD, PVF, PGN, WAV } VSV - indique au module SIDUL que l’unité sera interprétée comme une forme verbale si elle vient après un verbe auxiliaire. NSP - indique au module SIDUL que dès qu’il y a un prédéterminant à gauche d’un verbe à l’infinitif, cette forme verbale joue alors le rôle d’un FNOM ; PRE – indique au module SIDUL qu’il faut faire un pré-traitement sur l’unité prise. Cela signifie qu’il faut faire une régularisation de l’unité en question, étant donnée qu’il s’agit d’une sorte d’amalgame. L’action de régularisation est faite à partir de la reconstitution de l’unité en ses composants originels, lesquels doivent être informés dans la table ECHANGE ; NSD – indique à l’analyseur que l’unité lexicale ‘um’ est un nom s’il est précédé par un prédéterminant « cada » ou « qualquer ». ANA – indique au module SIDUL que l’unité prise, doit être prise comme un adjectif si elle vient après un nom ; PPN – indique au module SIDUL que l’unité prise, sera un prédéterminant si elle précède une unité F, NOM ; TOD – signale à l'analyser que après les unités TODA, TODO, TODAS, TODOS, peut apparaître un déterminant défini (a, o, as, os) ou aussi un déterminant indéfini (um, uma) ; PVF – indique au module SIDUL que l’unité prise, sera une unité de la catégorie Y si l’unité qu’elle précède est un verbe fini. Cependant elle peut être un D (prédéterminant) si elle est la première unité de la phrase ; PGN – indique que l’unité est un nombre et qui, s’il est à gauche d’un nom il joue le rôle d’un prédéterminant. WAV - indique au module SIDUL que l’unité prise sera dans la catégorie W si elle précède un verbe, un adjectif ou un élément de la catégorie W.