Introduction

Dès l'invention des ordinateurs les hommes sont à la recherche d'une manière efficace de gérer, de stocker, de diffuser et de rechercher l'information. Plusieurs méthodes et techniques de gestion et de traitement d'information ont été développées tout au long de ces années. Si aujourd'hui nous sommes dans un haut niveau d'informatisation, c'est parce que les hommes ont été suffisamment compétents pour développer et maîtriser la technologie (soit celle des matériels, soit celle de la communication, soit celle de la construction des logiciels ou soit celle de la gestion et du traitement de l'information). Il est vrai que la technologie de matériels et de la communication s'est développée rapidement. Grâce à ce développement, il est possible aujourd'hui avoir une grande disponibilité de mémoire primaire et secondaire, branchée aux ordinateurs et à un coût très bas. Ce n'était pas imaginable il y a quinze ans. De même cette technologie, envisageant le confort des utilisateurs, nous offre une panoplie d'options en termes d'accessoires périphériques, soit pour l'entrée de données, soit pour la diffusion de l'information. La numérisation de données est partout.

Or, bien que nous assistions à cette évolution remarquable — dans les domaines de l'informatique, de la communication et de l'information — nous nous rendons compte qu'il faut encore beaucoup progresser, surtout dans le domaine de l'information documentaire, plus spécifiquement dans celui du traitement et de la dissémination de l'information textuelle. Plusieurs recherches sont en cours de développement dans ce domaine, et pourtant, les problèmes d'indexation automatique et de recherche d'information sont encore très actuels.

C'est là notre souci. Nous nous intéressons au domaine du traitement et de la dissémination de l'information. Le domaine de l'information est très vaste. Les problèmes que nous allons poser et étudier dans cette recherche ne concernent que la partie relative à l'information textuelle.

Nous allons, donc, étudier les problèmes de la recherche d'information en envisageant de proposer un nouveau modèle de système de recherche d'information (SRI). C'est-à-dire, un modèle complet de SRI pour des bases de données textuelles, plus couramment appelées bases de données texte plein (full text). On entend par modèle complet, ce qui est composé non seulement d'une interface de recherche d'information, mais aussi d’un module de traitement et d'indexation automatique d'information intégré à un module d'interface de recherche d'information.

La démarche suivie est reflétée dans ce document. Celui-ci est partagé en trois grandes parties. La première, appelée "La Problématique", est consacrée à la discussion des problèmes de la recherche d'information et à la définition d'un système de recherche d'information. Dans cette partie nous étudierons les problèmes concernant la faiblesse de précision des résultats d'une recherche d'information et le manque de convivialité de ces systèmes. En fait, ce premier chapitre essaye de montrer le contexte de cette recherche.

Dans le deuxième chapitre nous proposerons ce que nous appelons Système de Recherche d'Information Assistée par Ordinateur. Cette proposition est faite dans le but de résoudre les problèmes discutés dans le premier chapitre.

La deuxième partie est consacré à la construction d'une maquette d'un système de recherche d'information basée sur la proposition faite dans le deuxième chapitre.

Le troisième chapitre est consacré à la description de la procédure de construction d'une base de données indexée par syntagmes nominaux. Ce chapitre décrit les critères utilisés pour la constitution du corpus qui va intégrer cette base de données, les traitements préalables pour la mise en place de cette base de données et les remarques sur la procédure d'extraction des syntagmes nominaux. Nous avons fait cette extraction de manière artisanale, c'est-à-dire manuellement, étant donné l'inexistence d'un système d'extraction automatique des syntagmes nominaux dans des textes en langue portugaise.

Le quatrième chapitre décrit les procédures de construction de la maquette d'un système de recherche d'information basé sur l'utilisation des syntagmes nominaux comme moyen d'accès à l'information. Nous montrons dans ce chapitre la structure de données pour la base de données et la description des rapports entre les syntagmes nominaux dans leurs différents niveaux. C'est-à-dire la structure arborescente des syntagmes nominaux. Ceci montre la démarche de navigation dans ces structures.

Le cinquième chapitre est consacré à la mise en service de la maquette. C'est-à-dire la mise en place de la base de données à partir du corpus et l'indexation de cette base à l'aide de l'utilisation des syntagmes nominaux extraits du corpus choisi. Etant donné le fait que les syntagmes nominaux ont été extraits manuellement, l'indexation de la base a été également faite à la main. Nous profitons de ce chapitre pour faire aussi quelques remarques sur les problèmes rencontrés lors de cette procédure d'indexation et de même sur l'exploitation de la maquette.

Dans le sixième chapitre nous avons fait une expérimentation, en utilisant un thesaurus, en langue portugaise, appelé TCI – Tesauros de Ciência da Informação (Thesaurus de Science de l'Information), pour étudier le comportement de la maquette et aussi des syntagmes nominaux comme moyen d'accès à l'information.

La troisième et dernière partie de la thèse est vouée à la construction d'un modèle pour la reconnaissance et l'extraction automatique des syntagmes nominaux, dans les textes en langue portugaise. La présentation de ce modèle est précédée par une esquisse du nouveau SRI.

Ainsi, le septième chapitre, présente une étude d'un des problèmes rencontrés dans la procédure d'extraction manuelle de syntagmes nominaux : l'absence assez fréquente de déterminants dans les syntagmes nominaux en langue portugaise. Nous essayons de trouver des marques qui puissent aider à la procédure de reconnaissance et d'extraction automatique des syntagmes nominaux.

Le huitième chapitre est voué à l’esquisse du nouveau SRI, c’est-à-dire, le Système de Recherche d’Information Assistée par Ordinateur. Nous proposons, en grandes lignes, une démarche de développement de ce système, en donnant les indications de sa composition ainsi que le dessin des structures de données nécessaires pour soutenir l’organisation de syntagmes nominaux. Ce sont les indices qui permettront aux usagers naviguer dans la base de données et retrouver l’information.

Dans le neuvième chapitre nous établissons la première partie du modèle pour la reconnaissance et l'extraction automatique des syntagmes nominaux, en langue portugaise : la grammaire de référence. C'est-à-dire que nous avons construit une grammaire de référence qui fait la description ou plutôt la caractérisation de chaque unité lexicale. C'est la première partie du modèle de reconnaissance et d'extraction automatique des syntagmes nominaux. C'est là où nous faisons la description de caractéristiques de chaque unité lexicale, de chaque mot pour reconnaître les éléments d'un syntagme nominal.

Le dixième chapitre est consacré à l'établissement de la grammaire de reconnaissance et d'extraction automatique des syntagmes nominaux. Nous faisons, dans ce chapitre, la description de la méthodologie utilisée pour l'établissement des règles de réécriture des syntagmes nominaux, et la description de chaque règle de réécriture, lesquelles font partie de la grammaire.

La démarche présentée est calquée sur la progression chronologique du travail de recherche : nous sommes partis de la pratique et nous sommes arrivés à la fin en concluant avec une partie théorique. Ce parcours a été fondamental pour la recherche, car il a permis de connaître le comportement et la composition des syntagmes nominaux dans les textes en langue portugaise. Par ailleurs, il a permis aussi de comprendre le comportement des syntagmes nominaux dans un système de recherche d'information. Ainsi, le savoir-faire obtenu lors de la procédure d'extraction manuelle des syntagmes nominaux a été important pour la construction du modèle de reconnaissance et d'extraction automatique des syntagmes nominaux. Un exemple montre cette importance, celui d'avoir rencontré un pourcentage important de syntagmes nominaux sans déterminant dans le corpus. Un autre exemple c'est que nous avons pu nous rendre compte de différences et de similitudes entre les langues française et portugaise, puisque nous connaissions d'abord la grammaire pour la reconnaissance et l'extraction automatique pour la langue française. Ces expériences et connaissances nous ont donc permis de concevoir le modèle de reconnaissance et d'extraction automatique des syntagmes nominaux pour la langue portugaise.

Nous avons mis dans l'annexe, le deuxième volume de cette thèse : a) les articles du corpus ; b) les syntagmes nominaux extraits du corpus d'articles ; c) le tableau avec les descriptions de SN consolidées ; d) un sous-ensemble de SN ajouté de la description de chaque SN. L'ensemble complet de description de SN est mis dans la disquette qui accompagne cette thèse.