Le but principal de ce travail est de reconnaître et d’extraire les syntagmes nominaux d’un texte en langue portugaise. Ce texte doit être dans un format permettant de le lire et de l’analyser. C’est pourquoi, nous pensons qu’il doit être en format libre, on définit que le texte est en format texte libre utilisant le code ASCII 99 . Cependant, pour un système de recherche d’information il nous semble nécessaire d’utiliser un format qui puisse expliciter l’organisation logique d’un document. Ainsi, nous proposons l’utilisation d'un format compatible avec le format SGML.
Standard Generalized Markup Language (SGML) signifie, en Français : langage normalisé de balisage généralisé. Selon Eric VAN HERWIJNEN 100 , ‘ « cette norme permet l’échange de documents et est destinée plus particulièrement au domaine de l’édition mais peut aussi être appliquée au domaine bureautique et à l’industrie. Les documents SGML ont une structure décrite rigoureusement, qui peut être analysée par ordinateur et être facilement comprise par un être humain. » ’.
Selon Victor SANDOVAL 101 , ‘ « SGML est un langage pour écrire des applications spécialisées. Le principal objectif de SGML est de définir des structures logiques, mais il permet aussi de définir d’autres structures telles que les structures hiérarchiques de données. » ’.
Ainsi, SGML est un outil, aussi classé comme langage, permettant de décrire un texte d’un document. Il décrit non seulement un texte mais il le fait de manière structurée. C’est un langage orienté à balisage. Le mot balisage est utilisé pour désigner les instructions ou les caractéristiques que les anciens éditeurs écrivaient sur un texte à imprimer, par exemple des informations comme : le nom de la police de caractère, la taille des caractères, l’aspect (normal, gras, italique), la justification et l’indentation du texte et d’autres caractéristiques. L’introduction de l’ordinateur dans l’industrie de l’édition a précipité l’apparition de plusieurs langages de balisages analogues au système manuel. ‘ « En 1978, un groupe de travail ANSI (American National Standard Institute) (X3 J6) fut formé afin de définir un format non ambigu pour l’échange de textes et un langage de balisage, qui serait suffisamment riche pour permettre tout traitement (futur). Au début des années quatre-vingt, ce travail fut transféré à l’ISO (International Standard Organization) dans un groupe de travail qui faisait partie du SC18 (ISO/IEC-JTC1/SC18/WG8) dont le travail donnera naissance plus tard à la norme SGML. » ’ 102 .
Le SGML permet de :
Sans approfondir sur la description du SGML, nous pouvons faire quelques remarques montrant les avantages de l’utiliser dans une implémentation d’un système de recherche d’information. Ces avantages sont les suivants :
De toute façon, on listera dans la bibliographie une série d’ouvrages concernant l’outil SGML et son utilisation. Ainsi, pour une question de simplicité et en suivant le but premier de cette recherche, qui est de concevoir un modèle pour la reconnaissance et pour l’extraction des syntagmes nominaux, dans des textes écrit en langue portugaise, on définit le format de texte comme étant de format libre, sans aucune codification autre que le code de chaque caractère (ASCII).
En ce qui concerne la langue portugaise, il faut remarquer que nous allons travailler plutôt avec la langue portugaise écrite et parlée au Brésil. Il y a quelques différences entre celle-ci et celle qui est écrite et parlée au Portugal.
Nous allons d’abord adopter une notation pour expliciter les éléments, les catégories, les règles et d’autres éléments du modèle. Nous utiliserons la notation appelée BNF (Backus-Naur Form ou Backus-Normal Form). Cette notation a été développée par J. W. BACKUS 103 , et utilise les symboles suivants :
Nous reviendrons sur le traitement des signes de ponctuation, tiret et ponctuation double car elles font partie de la catégorie T du modèle proposé.
ASCII code de caractères utilisés par les ordinateurs PC. Il est la sigle de American Standard Code for Information Interchange.
Eric Van Herwijnen. SGML Pratique.Paris : International Thomson Publishing France., 1995. P. 3.
Victor Sandoval. SGML : un outil pour la gestion électronique de documents. Paris :Hermés, 1994. P. 33.
Eric Van Herwijnen. SGML Pratique.Paris : International Thomson Publishing France., 1995. p. 24.
Cette notation a été extrait du livre de David GRIES. Compiler Construction for Digital Computers. New York : John Wiley & Sons, 1971. p. 19, lequel donne le crédit intellectuel au travail original de J. W. BACKUS. « The syntax and semantics of the proposed international algebraic language of the Zurich ACM-GAMM Conference. ». Proceedings of International Conference on Information Processing.UNESCO :1959, p. 125-132.