3.2 Calculs des syntagmes nominaux

Plusieurs situations se présentent dans les textes où le repérage des syntagmes nominaux n’est pas toujours évident. Cela arrive soit parce qu’il y a des éléments anaphoriques, soit parce qu’il y a des ellipses, soit encore parce qu’il y a d’autres situations où les syntagmes nominaux se trouvent cachés ; il est possible d’autre part, de trouver des syntagmes nominaux qui ne portent pas d’information. Ainsi, il a fallu adopter quelques règles afin d’extraire les syntagmes nominaux de façon homogène :

  1. Syntagmes nominaux vides Par principe les articles (documents) sont composés de sections et de parties dont les titres ont été considérés comme étant des syntagmes nominaux. Or, on s’est vite rendu compte que plusieurs de ces syntagmes ne portaient pas d'information, concernant le sujet du document, comme par exemple : Conclusão (Conclusion), Objetivo (Objectif), Antecedentes (Antécédents), Introdução (Introduction), etc. On les a alors supprimés de la liste des syntagmes nominaux. On a trouvé également dans les textes des syntagmes vides, tels que : nesse sentido (dans ce sens), nesse contexto (dans ce contexte), uma vez que (une fois que... ou étant donné que), tal processo (un tel processus...), outro angulo (sous un autre angle), o momento (à ce moment...), etc. Ces syntagmes ont été aussi supprimés.
  2. Syntagmes nominaux cachés dans des phrases avec factorisation L’extraction des syntagmes nominaux dans des phrases avec factorisation n’est pas toujours évidente, sauf quand on a une indication claire du syntagme comme par exemple dans la phrase suivante : o processo de negociação dos setores privado e público Dans ce cas, le syntagme nominal de niveau 1 (un) est clairement distingué comme étant os setores privado e público, parce que le mot setoresest au pluriel et qu’il fait référence aux deux mots - privado e publico, au singulier - simultanément. Par contre, on a rencontré des situations où on a eu du mal à identifier le syntagme nominal de manière précise. Dans ces cas-là, on a décidé d’extraire le syntagme nominal composé par chaque mot de la suite coordonné et le complément de la phrase. Exemples :
    1. Le syntagme nominal : a análise, interpretação, avaliação e comunicação da informação pelos meios convenientes a donné les syntagmes nominaux suivants :
  1. Le syntagme nominal : o potencial de conhecimento e inteligência da organização a produit les syntagmes nominaux suivants :
  1. Phrases entre guillemets Les guillemets sont utilisés normalement dans deux situations : soit pour distinguer une citation soit pour distinguer un mot ou un terme (groupe limité de mots). Dans le cas d’une citation, on a fait l’extraction des syntagmes nominaux comme dans un texte normal, tandis que pour le deuxième cas on a simplement enlevé les guillemets. On a trouvé, cependant, des situations où le terme dans les guillemets a été identifié comme un syntagme nominal. Exemple : a denominação de « Economia da Informação » Une fois, encore, on peut trouver des difficultés dans une procédure automatique d’extraction de syntagmes nominaux.
  2. Phrase entre tirets Les phrases entre tirets ont été traitées de la même façon que les phrases entre parenthèses. La situation est similaire.
  3. Déterminant Zéro À la différence du français, on trouve souvent en portugais des phrases où les articles sont omis, donc des phrases qui n’ont pas de déterminants. Selon M. ME GUERN, l'omission des articles indéfinis est plus courante dans les cas des substantifs abstraits au pluriel, comme par exemple : informações científicas, sistemas, etc. Celso CUNHA & Lindley CINTRACUNHA, C. et CINTRA, L. Nova Gramática do Português Contemporâneo. Lisboa : Edições João Sá da Costa, 1991. présentent également quelques situations où les articles sont omis :

  1. Calculs des anaphores Les éléments anaphoriques, en portugais, apparaissent souvent au moyen des particules suivantes : pronoms possessifs, pronoms démonstratifs, pronoms personnels, etc. L’extraction des syntagmes nominaux cachés par les éléments anaphoriques n’a pas toujours été facile. Lorsque les sources de ces éléments étaient près d’eux, on a pu les résoudre facilement. Par contre, quand leurs sources se situaient dans les paragraphes précédents ou encore plus loin l’extraction des syntagmes nominaux devenait très difficile. Malgré les difficultés rencontrées, nous avons cependant essayé de les résoudre. Deux cas d’anaphores cependant n’ont pas pu être résolus : d’une part les anaphores sans sources, tels que : nesse sentido (dans quel sens ? il n’y a pas de source dans le texte), desse modo (de quelle façon ? il n’y a pas de source dans le texte), nossa experiência (quelle expérience ? celle de l’auteur ? celle de techniciens d’information ?), etc. Et pourtant, il a été facile de constater que ces syntagmes ne portent aucune information, et qu’ils sont plutôt des termes accessoires dans le processus d'écriture. Le deuxième cas d’anaphore non résolu est celui des anaphores sans sources explicites, mais qui portent des informations du genre : esse período pré-industrial (ce période pré-industriel), esse sistema de comunicação (ce système de communication), aqueles benefícios que não podem ser mensurados monetáriamente,(ces bénéfices qui ne peuvent pas être mesurés financièrement), etc. Dans ces cas, les syntagmes ont été conservés et transcrits tels quels, sans aucun traitement. Bien qu’on ait résolu dans la plupart des cas les problèmes d’anaphores, les phrases obtenues sont parfois curieuses, comme par exemple : uma categoria de clientes conscientizados dos seus direitos a produtos e serviços de alta qualidade (une catégorie de clients conscientisés sur leurs droits à des produits et à des services de haute qualité) dont la solution est : uma categoria de clientes conscientizados dos direitos dos clientes conscientizados a produtos e serviços de alta qualidade (une catégorie de clients conscientisés des droits des clients conscientisés à produits et services de haute qualité) Une manière de résoudre ce problème serait de remplacer les éléments anaphoriques seulement au moment de l’extraction des syntagmes qui les enveloppent. Ainsi, l’exemple ci-dessus reste :
SN4
uma categoria de clientes conscientizados dos seus direitos a produtos e serviços de alta qualidade(une catégorie de clients conscientisés sur leurs droits à des produits et à des services de haute qualité)
SN3
clientes conscientizados dos seus direitos a produtos e serviços de alta qualidade (des clients conscientisés sur leurs droits à des produits et à des services de haute qualité)
SN2
os direitos dos clientes conscientizados a produtos e serviços de alta qualidade (les droits des clients conscientisés à des produits et à des services de haute qualité)
SN1
produtos e serviços de alta qualidade (des produits et des services de haute qualité)Cette solution n’a pas été adoptée dans ce travail puisqu’on a préféré garder les syntagmes nominaux entièrement développés.
  1. Calculs des ellipses Le problème lié à ce type de figure est toujours dépendant de la capacité de se rendre compte qu’il manque un mot dans une phrase. Il faut toujours analyser non seulement les phrases précédentes, mais aussi les phrases suivantes. Exemple : uma visão de longo prazo que assegure não só a sobrevivência (?), como também o crescimento da organização (une vision à long terme qui assure non seulement la survie mais aussi la croissance de l’organisation) Quel est le complément du terme sobrevivência (survie), c’est-à-dire, la survie de qui ? La solution se trouve dans la phrase suivante : o crescimento da organização (la croissance de l’organisation). Ainsi, le syntagme complet est : uma visão de longo prazo que assegure não só a sobrevivência da organização, como também o crescimento da organização (une vision à long terme qui assure non seulement la survie de l’organisation mais aussi la croissance de l’organisation). Dans une procédure manuelle il n'y a pas de problèmes pour trouver la solution des ellipses ; par contre, dans une procédure automatique on rencontrera sûrement des difficultés pour résoudre ce type de figure.