2 Définitions préliminaires

Le but principal de ce travail est de reconnaître et d’extraire les syntagmes nominaux d’un texte en langue portugaise. Ce texte doit être dans un format permettant de le lire et de l’analyser. C’est pourquoi, nous pensons qu’il doit être en format libre, on définit que le texte est en format texte libre utilisant le code ASCII ⁹⁹ . Cependant, pour un système de recherche d’information il nous semble nécessaire d’utiliser un format qui puisse expliciter l’organisation logique d’un document. Ainsi, nous proposons l’utilisation d'un format compatible avec le format SGML.

Standard Generalized Markup Language (SGML) signifie, en Français : langage normalisé de balisage généralisé. Selon Eric VAN HERWIJNEN ¹⁰⁰ , ‘ « cette norme permet l’échange de documents et est destinée plus particulièrement au domaine de l’édition mais peut aussi être appliquée au domaine bureautique et à l’industrie. Les documents SGML ont une structure décrite rigoureusement, qui peut être analysée par ordinateur et être facilement comprise par un être humain. » ’.

Selon Victor SANDOVAL ¹⁰¹ , ‘ « SGML est un langage pour écrire des applications spécialisées. Le principal objectif de SGML est de définir des structures logiques, mais il permet aussi de définir d’autres structures telles que les structures hiérarchiques de données. » ’.

Ainsi, SGML est un outil, aussi classé comme langage, permettant de décrire un texte d’un document. Il décrit non seulement un texte mais il le fait de manière structurée. C’est un langage orienté à balisage. Le mot balisage est utilisé pour désigner les instructions ou les caractéristiques que les anciens éditeurs écrivaient sur un texte à imprimer, par exemple des informations comme : le nom de la police de caractère, la taille des caractères, l’aspect (normal, gras, italique), la justification et l’indentation du texte et d’autres caractéristiques. L’introduction de l’ordinateur dans l’industrie de l’édition a précipité l’apparition de plusieurs langages de balisages analogues au système manuel. ‘ « En 1978, un groupe de travail ANSI (American National Standard Institute) (X3 J6) fut formé afin de définir un format non ambigu pour l’échange de textes et un langage de balisage, qui serait suffisamment riche pour permettre tout traitement (futur). Au début des années quatre-vingt, ce travail fut transféré à l’ISO (International Standard Organization) dans un groupe de travail qui faisait partie du SC18 (ISO/IEC-JTC1/SC18/WG8) dont le travail donnera naissance plus tard à la norme SGML. » ’ ¹⁰² .

Le SGML permet de :

Faciliter l’échange de documents avec n’importe quelle machine ou système opérationnel, étant donné qu’il est un standard international. Il existe déjà des logiciels capables de lire et de convertir un document SGML en un autre format ;
Organiser logiquement un texte dans une structure en arbre, permettant les indications référentielles du document (auteur, titre du document, sujet et d’autres références) ;
Séparer la forme du contenu (la forme est cachée dans les feuilles de style ou dans les macros) ;
Apporter plus de transparence en ce qui concerne la typographie et la mise en page.

Sans approfondir sur la description du SGML, nous pouvons faire quelques remarques montrant les avantages de l’utiliser dans une implémentation d’un système de recherche d’information. Ces avantages sont les suivants :

Possibilité de mettre des informations référentielles du document a être traité, comme le nom de l’auteur, le titre, les titres de sections et paragraphes ;
Possibilité d’inclure des marques lors de l’extraction des SN, pour les expliciter après au moment de la présentation du respectif document à l’usager. Ainsi, par exemple, on peut souligner ou mettre en caractères gras tous les syntagmes nominaux extraits d’un document ; ceci facilitera aux usagers la vision des SN extraits d’un document ainsi que ceux utilisés lors de la recherche d’information ;
Possibilité de créer des liens entre un syntagme et un autre, ou même entre les articles d’un même auteur. Ce qui peut donner plus de souplesse à la navigation dans l’ensemble de documents au moment de leur visualisation ;
Proximité avec le format HTML, ce qui permet à une application d’être converti plus facilement d’un environnement non-WEB à celui du WEB.

De toute façon, on listera dans la bibliographie une série d’ouvrages concernant l’outil SGML et son utilisation. Ainsi, pour une question de simplicité et en suivant le but premier de cette recherche, qui est de concevoir un modèle pour la reconnaissance et pour l’extraction des syntagmes nominaux, dans des textes écrit en langue portugaise, on définit le format de texte comme étant de format libre, sans aucune codification autre que le code de chaque caractère (ASCII).

En ce qui concerne la langue portugaise, il faut remarquer que nous allons travailler plutôt avec la langue portugaise écrite et parlée au Brésil. Il y a quelques différences entre celle-ci et celle qui est écrite et parlée au Portugal.

Nous allons d’abord adopter une notation pour expliciter les éléments, les catégories, les règles et d’autres éléments du modèle. Nous utiliserons la notation appelée BNF (Backus-Naur Form ou Backus-Normal Form). Cette notation a été développée par J. W. BACKUS ¹⁰³ , et utilise les symboles suivants :

Les noms en lettres majuscules représentent le nom d'un élément non terminal ;
Les noms et les définitions sont mis entre '<' , '>' et en lettre minuscule ;
Définition des symboles :

::=
ce symbole signifie : est défini comme

ce symbole signifie : est composé de...
|
ce symbole signifie : ou

Exemple :

E : := <une suite de chiffres> On lit cette notation comme étant : le symbole E est défini comme une suite de chiffres.
E  <no> On lit cette notation comme étant : E est composé d’une variable <no> ;
<no>  <no> <chiffre> | <chiffre> On lit cette notation comme étant : <no> est composé d’une variable <no> suivi d’un <chiffre> ou il est composé d’un <chiffre>
<chiffre>  0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 On lit cette notation comme étant : <chiffre> est composé du caractère 0 ou du caractère 1 ou du caractère 2 et ainsi de suite.

<lettre> 
a | b | c | d | e | f | g | h | i | j | | k | l | m | n | o | p | q | r | s |t | u | v | y | w | z | A | B | C | D | E | F | G | H | I | J | K | L |M | N | O | P | Q | R | S | T | U | V | Y | W | Z | à | á | â | ã | ê | é | í | ú | ü | ô | ó | õ | À |Á | Â | Ã | É | Ê | Í | Ó | Ô | Õ | Ú | Ü | ç | ÇLes lettres ‘k’, ‘w’ et ‘y’ ne sont utilisées que dans deux cas 104 Celso CUNHA et Lindley CINTRA. Nova Gramática do Português Contemporâneo. Lisboa : Edições João Sá da Costa, 1991. p. 63 :

Dans la transcription de noms propres étrangers et de leurs dérivés en portugais. Exemples : Franklin, frankliniano, Wagner, wagneriano, Klabin etc.
Dans les raccourcis et symboles internationaux. Exemple : km (quilômetro), K (potassium), yd (jardes), w (watts), kg (kilogrammes) etc.

<signes de ponctuation> 
, | ; | . | : | ? | ! | … Ces signes peuvent être utilisés pour la segmentation de phrases. Cependant, il faut remarquer que le point ‘.’ peut aussi être utilisé dans des sigles et abréviations. Exemples : S.A. (Société Anonyme), C.V.R.D. (Companhia Vale do Rio Doce). Pourtant, dans le cas de sigles, le problème peut être supprimé car les points sauf le dernier n’y sont pas suivis d’espace. Cependant, aujourd’hui c’est rare d’écrire les sigles avec des points entre chaque lettre. En ce qui concerne les abréviations, le problème est plus difficile à résoudre. Une solution serait de les mettre dans la base LEXIQUE, en indiquant qu’il s’agit d’une abréviation.
<tiret/trait d’union> 
- Le <tiret/trait d’union> apparaissent dans deux situations, soit dans les mots composés et verbes fléchis avec un pronom (trait d’union), soit en dehors des mots où il joue un rôle de ponctuation (tiret). La différence entre les deux rôles de ce signe est :

lorsqu’il joue le rôle de trait d’union, il est mis entre deux mots, sans espaces, comme dans les mots composés et aussi lorsqu’on utilise les pronoms personnels (« obliquos atonos ») équivalents aux pronoms clitiques en français, après le verbe [me, te o, a, os, as, lhe, lhes (me, te, le, la, les, las, leur, leurs)] ; Exemple : guarda-chuva (parapluie), couve-flor (chou-fleur), ofereceram-me (ils m’ont offert), levaram-no (ils l’ont amené) etc.
lorsqu’il joue le rôle de tiret, il est entouré par deux espaces ou par un espace et une ponctuation. | - | ou | -,| où le signe  est utilisé pour désigner un espace.

<ponctuation double> 
« » | ( ) |
<signe de délimitation> 
 On considère l'espace () comme signe de délimitation d’une unité lexicale simple. Les unités lexicales composés doivent être mis dans la base de données LEXIQUE.

Nous reviendrons sur le traitement des signes de ponctuation, tiret et ponctuation double car elles font partie de la catégorie T du modèle proposé.

Notes

99.

ASCII code de caractères utilisés par les ordinateurs PC. Il est la sigle de American Standard Code for Information Interchange.

100.

Eric Van Herwijnen. SGML Pratique.Paris : International Thomson Publishing France., 1995. P. 3.

101.

Victor Sandoval. SGML : un outil pour la gestion électronique de documents. Paris :Hermés, 1994. P. 33.

102.

Eric Van Herwijnen. SGML Pratique.Paris : International Thomson Publishing France., 1995. p. 24.

103.

Cette notation a été extrait du livre de David GRIES. Compiler Construction for Digital Computers. New York : John Wiley & Sons, 1971. p. 19, lequel donne le crédit intellectuel au travail original de J. W. BACKUS. « The syntax and semantics of the proposed international algebraic language of the Zurich ACM-GAMM Conference. ». Proceedings of International Conference on Information Processing.UNESCO :1959, p. 125-132.