À
ma mère
Aylda, à
mes filles
Liliana et Luisa,
et à ma femme
Cristiane
Nous proposons un modèle d’un système d’indexation et de recherche d’information afin de faire face aux difficultés rencontrées par les usagers lors de l’utilisation de tels systèmes. Nous en distinguons deux types de problèmes : la faible précision des résultats d’une recherche d’information et le manque de convivialité des interfaces de recherche d’information. Nous limitons notre champ d’étude aux systèmes de recherche d’information (SRI) qui portent sur des bases de données textes pleins (full text).
Suite à l’étude de ces difficultés nous sommes parvenus à une conclusion identique à celle proposé par le groupe SYDO : l’utilisation des syntagmes nominaux (SN) comme descripteur, en opposition à l’utilisation des mots couramment adoptés par les SRI classiques.
Il s’agissait alors d’examiner la faisabilité de cette proposition. Nous avons donc développé une maquette d’un SRI ainsi qu’une base de données construite à partir d’un corpus d’articles scientifiques en langue portugaise. Ensuite, nous avons exploité cette maquette à l’aide d’un thesaurus, cela nous a permis de mieux connaître le comportement des SN à l’intérieur d’une structure arborescente, ainsi que de l'interface de recherche d'information.
Pour conclure, nous avons établi un modèle de reconnaissance et d’extraction des SN en textes en langue portugaise.
Plus que simplement arriver à la conclusion pour la faisabilité de notre proposition, la démarche adoptée nous a montré que les connaissances obtenues dans la pratique d’extraction et d’indexation des SN, ainsi que dans le développement de la maquette ont été importants pour l’établissement du modèle de reconnaissance et d’extraction des SN.
Système de Recherche d’Information ; interface de recherche d’information ; indexation automatique ; syntagmes nominaux ; reconnaissance de syntagmes nominaux ; extraction de syntagmes nominaux ; traitement automatique du langage naturel.
Le but initial de mes études en France était de proposer de construire un Système de Recherche d’Information (SRI) guidée par langage naturel. Ce but a été établi comme conséquence des expériences vécues dans mon métier. Je travaille dans l’IBICT (Institut Brésilien d’Information en Science et Technologie), depuis 1983. Cet institut est l’organisation brésilienne responsable pour la dissémination de l’information dans la communauté scientifique et technologique. Une des grandes difficultés trouvée par les chercheurs et par les techniciens en information était comment trouver l’information. En fait, les systèmes de recherche d’information n’offraient pas une interaction conviviale. Le manque de convivialité des interfaces de recherche d’information éloignait les usagers de l’information. Cela arrivait parce que d’une part il y avait une variété de langage de recherche (langage à commandes), chaque système avait un langage particulier. D’autre part, presque tous les systèmes utilisaient la logique booléenne comme moyen d’exprimer le besoin d’information de l’utilisateur. Il fallait donc bien connaître les langages de recherche d’information ainsi que la logique booléenne.
En 1987, nous avons coordonné un projet de construction d’un réseau d’information basé sur un réseau d’ordinateur en utilisant un langage commun de recherche d’information, laquelle toutes les institutions devraient utiliser. Ce langage a été basé sur une norme ISO appelé Common Command Language (CCL). C’était une initiative dans le sens de faciliter l’accès à l’information aux usagers. Ce travail nous a motivé à faire des études ayant comme but la construction d’un système de recherche d’information avec l’interaction en langue naturelle. Un tel système serait beaucoup plus convivial que les systèmes de recherche d’information traditionnels. Pourtant ces études et l’analyse de la littérature spécialisée, concernant ce sujet, nous ont amenés à un autre problème, le manque de précision dans les résultats d’une recherche d’information dans les systèmes traditionnels. Il ne fallait pas donc seulement construire un système plus convivial, mais il fallait construire un nouveau système capable de donner aux usagers, de manière conviviale, les informations qu’ils attendaient.
Ainsi, pour la proposition de ce nouveau Système de Recherche d’Information, nous avons adopté les syntagmes nominaux comme moyen d’accès à l’information comme modèle d’indexation automatique. Mais, au lieu de construire d’abord une grammaire pour l’identification et pour l’extraction des syntagmes nominaux, nous avons d’abord vérifié la faisabilité de construire un SRI en utilisant les syntagmes nominaux comme descripteurs. Pour cela, nous avons tout d’abord constitué un corpus d’articles en langue portugaise et puis nous avons extrait les syntagmes nominaux de manière non automatique. C’est-à-dire manuellement, en utilisant une approche logico-sémantique. Par la suite, nous avons construit une maquette d’interface de recherche d’information et organisé, dans une structure arborescente, les syntagmes nominaux extraits. Nous avons donc développé une base de données d’articles en langue portugaise et aussi une interface de recherche d’information guidée par menu.
L’ensemble de syntagmes nominaux extraits du corpus d’articles a servi de base pour l’analyse et construction des règles de formation des syntagmes nominaux. Je ne suis pas un linguiste mais plutôt un professionnel de l’information et de l’informatique. Cette démarche a été très important car cette tâche initiale nous a permis de mieux connaître le comportement des syntagmes nominaux dans les textes en langue portugaise. Grâce à cette démarche, nous avons pu construire le modèle pour l’extraction des syntagmes nominaux dans des textes en langue portugaise, présenté à la fin de cette thèse. La réflexion sur l’interface construite par le biais de la maquette nous a conduit à un Système de Recherche d’Information Assistée par Ordinateur, une nouvelle gamme de SRI.