3.1 Réécriture des déterminants complexes

Dans le corpus de SN nous avons retrouvé comme déterminant non seulement des unités de la catégorie des prédéterminants, mais aussi des déterminants plus complexes, composés par des prédéterminants et des unités qui appartiennent à d’autres catégories comme celle de la catégorie F. Les traits de lien de parenté entre la langue portugaise et la langue française apparaissent aussi dans les types de déterminants dans un SN. Ces déterminants ressemblent à ceux traités par Chawk MOHAMAD 144 pour la langue française. Pour distinguer les prédéterminants de ces déterminants composés, nous avons adopté la notation D’. Il y a pourtant quelques différences. Parmi ceux-ci, on peut distinguer les règles concernant les articles partitifs car ce type d’article n’existe pas en portugais.

La syntaxe de ces déterminants complexes (D') se définit comme suit :

  • D DNNU | DNUM| DDEF | DIND
  • DNNU : :=<une unité de la catégorie D, non numérique>
  • DNUM : := <une unité de la catégorie D, numérique>
  • DDEF: :=<une unité de la catégorie D, défini>
  • DIND: :=<une unité de la catégorie D, indéfini>
  • DNUM dois | três | ... | mil | milhão | ambos | ambas
  • E  EINT | EDEC
  • EINT : := <une unité de la catégorie E, chiffre entier>
  • EDEC : := <une unité de la catégorie E, chiffre décimal>
  • D'  D0 | D | E | E + DNUM | DDEF + E + DNUM |
  • DØ : := <déterminant zéro ou signale l’absence d’article> 145

Exemples de déterminants complexes couverts par cette règle :

Selon Chawk MOHAMAD il faut établir une contrainte pour cette règle car elle risque d'échouer dans l'analyse de dates, dans la langue française. Pourtant, dans la langue portugaise la date n'est pas toujours précédée d'un article, sauf dans quelques exceptions. On place un article devant une date lorsque cette date relève d'un événement important. Un autre aspect en ce qui concerne la différence entre la date française et la date portugaise est la syntaxe. En portugais on exprime la date sous la forme : 99 de mois de 9999.

Exemple : 20 de janeiro de 1996.

Ainsi, le repérage du syntagme nominal sous la forme de date doit être fait selon une procédure spécifique et non pas selon la règle normale du syntagme nominal. Cette procédure doit suivre une règle de la forme :

<date>
EINT + P-DE + <mois> + P-DE + EINToù<mois>  Janeiro | Fevereiro |Março | Abril | Maio | Junho | Julho | Agosto | Setembro | Outubro | Novembro | Dezembro

La procédure veille à la valeur du premier EINT car les jours peuvent être dans la fourchette de 1 a 30 pour les mois d’Avril, Juin, Septembre, Novembre ; et dans la fourchette de 1 a 31 pour les mois de Janvier, Mars, Mai, Juillet, Août, Octobre et Décembre ; et de 1 a 28 ou 29 selon l’année pour le mois de février, 29 pour les années bissextiles et 28 pour les autres.

D’autres formes de déterminant complexe ont été trouvées dans le corpus de SN.

Exemple :

  1. a maior parte da força de trabalho (la plus grande partie de la force de travail) 
  2. a maioria das novas atividades (la majorité des nouvelles activités) 

Ces déterminants ressemblent à ceux traités par Chawk MOHAMAD. On peut établir une règle de réécriture pour ces déterminants en examinant les exemples suivants :

  1. a maior parte da força de trabalho (la plus grande partie de la force de travail) D’ DNNU + A + N + P-DE + DNNUoù AFADJ,QUA N FNOM P-DE : := <la préposition DE>
  2. a maioria das novas atividades (la majorité des nouvelles activités) D’  DNNU + N + P-DE + DNNU
  3. a baixa capacitação técnico-científica (la faible compétence technico- scientifique) D’  DNNU + A

D'après ces exemples et sachant qu’un N peut être réécrit comme A + N, ce qui ne change pas le statut de N, il demeure un N, c’est-à-dire un prédicat libre. Nous pouvons établir les règles suivantes :

D’
 DNNU + N + P-DE + DNNU | DNNU + N + P-DE | DNNU + A

Il existe des mots dans la classe F qui sont des homonymes car ils peuvent parfois jouer un rôle de déterminant et parfois de non déterminant dans une autre construction syntaxique. En fait la question qu’on se pose est celle-ci : faut-il vraiment prend en compte ce genre de déterminant ? Que ces expressions (exemples 1, 2 et 3) jouent le rôle de déterminant, il n’y a aucun doute. La solution, donnée par Chawk MOHAMAD — de créer une variable, accompagnée de règle de contrainte, permettant de distinguer d’une part les noms pouvant entrer dans la formation de déterminants complexes, d’autre part ceux qui ne le peuvent pas — nous semble régler ce problème. Or, la question est en outre de savoir si cela vaut la peine de mettre cette information pour chaque unité lexicale, dans la base de données LEXIQUE. Cela implique une augmentation de tâche dans la procédure de saisie d’information pour chaque unité lexicale. Et quelques lignes supplémentaires de programmes dans le module d’analyse seront nécessaires pour vérifier les règles de contraintes.

En fait, il s’agit d’un alourdissement de la procédure d’analyse morpho-syntaxique. Du point de vue de la reconnaissance de SN, il y a déjà le prédéterminant, ce qui donne déjà l’indication de début du SN. Ainsi le fait de ne pas prendre en compte des déterminants complexes ne doit pas déranger la procédure de reconnaissance de SN et de leur extraction. Du point de vue de l’indexation, il nous semble aussi qu’il n’y a pas de problèmes, puisque les SN seront indexés quand même. Le seul inconvénient est qu’on aura un niveau de plus dans la structure des syntagmes nominaux.

Prenons l’exemple (1) :

A maior parte da força de trabalho (La plus grande partie de la force de travail).
SN1 : a força de trabalho (la force de travail)
SN2 : a maior parte da força de trabalho (la majeure partie de la force de travail)

Si la procédure de reconnaissance et d’extraction de SN prenait en compte les déterminants complexes ce SN serait de premier niveau au lieu de deuxième niveau selon l’exemple ci-dessus. La conséquence de l’adoption de ne pas prendre en compte les déterminants complexe est l’utilisation d’un peu plus d’espace en disque dur. Or, la saisie d’information pour chaque unité lexicale pour rendre faisable la reconnaissance des déterminants complexes peut prendre beaucoup plus d’espace en disque puisqu’il faut mettre ces informations pour chaque unité lexicale.

Nous pouvons donc envisager trois solutions possibles pour les trois types de déterminants complexes (ceux des exemples 1,2 et 3), soit nous ne prenons pas en compte l’existence de ces déterminants, mais seulement du prédéterminant, soit nous prenons en compte et créons les variables nécessaires, ou bien nous mettons tous les déterminants complexes dans la base de données LEXIQUE.

La première solution proposée peut présenter l’avantage que nous avons exposé plus haut. Etant donné que le but de ce travail est l’indexation automatique, il nous semble que cette solution ne compromet pas l’indexation elle-même et ni la recherche d’information.

La deuxième solution serait idéale. Elle exige des efforts dans la mise à jour de la base de données et dans la programmation de l’analyseur. Pour l’indexation nous ne cherchons pas l’identification des déterminants complexes mais les syntagmes nominaux. C’est une bonne solution pour des travaux comme la traduction automatique ou d’autres applications qui exigent l’identification de ces éléments.

En ce qui concerne la troisième solution, elle peut résoudre de manière satisfaisante le problème, mais elle est quand même ennuyant étant donné qu’on va surcharger la base de données LEXIQUE.

Ainsi, la décision de ne pas repérer les déterminants complexes nous semble bonne solution en ce qu’elle prend l’indexation comme but la reconnaissance et l’extraction des SN.

Encore :

  1. mais ou menos 3000 anos [environ 3000 ans] D’  WQUA + DNUM WQUA ::= <élément de la catégorie W, sous-catégorie QUA>
  2. mais de 3000 anos [plus de 3000 ans] D’  WQUA + P-DE + DNUM
  3. cada 10-15 anos D'  DIND + I I ::= <fourchette numérique> I  EINT -EINT | EINT
  4. Toda a empresa [Toute l’entreprise] D' todo o | toda a | todos os | todas as (tout le | toute la | tous les | toutes les) En effet, cette règle de réécriture doit être exprimée ainsi : D'  DIND + DDEF Cependant, il faut créer dans la variable RG pour les unités TODO, TODA, TODOS, TODAS, une valeur (TOD) avec la force d'une règle de contraint, en disant que ces unités peuvent être suivies d'un déterminant défini du type "o, a, os, as"

Le mot todo (tout) suivi d'un article, au singulier, détermine la totalité du substantif. Exemple : Toda a empresa [toute l'entreprise] (c'est-à-dire l'ensemble complet d'une entreprise donnée).

Tandis que le mot todos suivi d'un article au pluriel, fait référence à l’ensemble de tous les objets représentés par le substantif qui suit. Exemple : Todos os franceses [Tous les français] (c'est-à-dire l'ensemble de tous les français et non seulement un français).

Par contre, il faut signaler qu'il y a des mots qui refusent l'utilisation de l'article. Exemple : Todo Portugal pensa assim [Tout le Portugal pense comme cela).

L'utilisation du mot todo sans être suivi d'un article donne un sens de généralité au substantif qu'il précède. Exemple : Toda casa deve ser reformada [Toute maison doit être réparée] (c'est-à-dire une maison quelle qu’elle soit doit un jour être réparée).

Nous allons ainsi faire une synthèse de la règle des déterminants.

D'
 DØ | D | E | E + DNUM | DDEF + E + DNUM| WQUA + DNUM | WQUA + P-DE + DNUM | DIND + I | DIND + DDEF
D
 DNUM | DNNU | DDEF | DIND

Notes
144.

Chawk MOHAMAD. La réécriture de D': les déterminants complexes du français : lexique et syntaxe. Memoire de DEA, 1993.

145.

l'identification du déterminant zéro sera réalisé par exclusion, en d’autres mots, s’il n’y a aucun déterminant selon la règles des déterminants, il faudra voir le mot qui initie la phase pour voir s'il s'agit d'un mot abstrait, ou d'un mot de la classe des noms au pluriel, dans ce cas, on peu dire qu'on a un cas de déterminant zéro.