2 La proposition d'un Système de recherche d'information assistée par ordinateur

Les traits généraux de cette proposition ont été signalés par M. LE GUERN dans son article dans la revue Le Français Moderne. Nous avons construit une maquette d'un système de recherche d'information suivant la démarche proposée par lui.

Il est vrai que nous n'avons pas fait une évaluation de cette maquette avec des utilisateurs et, donc, nous ne savons pas l'impact de cet outil dans le milieu des utilisateurs. C'est-à-dire que nous n'avons pas des données sur l'efficacité ou sur la performance de ce système. Nous ne pouvons donc pas affirmer avec certitude que ce système résoudra les problèmes discutés dans la première partie de cette thèse.

Nous n'avons pas fait l'évaluation de la maquette puisque cela n'était pas le but de cette recherche. En effet, un travail d'évaluation d'une maquette d'un système de recherche d'information impliquerait d'en avoir deux éléments principaux : a) un corpus de documents important, dans un domaine bien précis ; et b) un ensemble d'usagers aussi important et homogène.

Le corpus n'avait pas une taille adéquate pour l'évaluation, mais il avait une taille suffisante pour l'expérimentation de la maquette construite. La constitution d'un corpus pour l'évaluation d'un système de recherche d'information devrait avoir une taille plus importante. L'évaluation de la maquette dans cette phase de la recherche demanderait l'utilisation d'un système de reconnaissance et d'extraction automatique de SN. Cela est très important pour le traitement et l'indexation d'un corpus plus grand que celui que nous avons pris. En effet, la tâche de reconnaissance et d'extraction manuelle de SN n'est pas facile. Là, il y a deux problèmes majeurs : 1) le temps nécessaire pour la reconnaissance, l'extraction et l'indexation manuelle de SN est excessivement grand ; 2) la procédure manuelle de repérage des SN ne permet pas leur extraction de façon homogène. Un système de reconnaissance, d'extraction et d'indexation automatique des SN serait essentiel. L'utilisation d'un tel système permettrait sûrement une reconnaissance et une extraction plus homogène des SN car il est systématique et obéit plus précisément aux règles de réécriture des SN. Ce qui n'arrive pas souvent dans une démarche manuelle de reconnaissance des SN. De même, nous avons exploité la maquette en utilisant un thesaurus de sciences de l'information, en langue portugaise. Cela a permis de connaître un peu mieux la maquette de recherche d'information, la démarche de navigation dans la maquette, les problèmes de navigation et de la structure en arbre des SN.

Cette exploitation nous a permis quelques réflexions sur l'approche adoptée pour le développement de la maquette comme proposition d'un système de recherche d'information assistée par ordinateur. D'abord nous allons faire quelques remarques sur les faiblesses de la maquette développée dans cette recherche :

  • Le début d'une recherche d'information ne doit pas être limité au centre de syntagme nominal de premier niveau. Cela est intéressant pour les usagers non spécialisés. Cependant, les usagers plus expérimentés peuvent être gênés s'ils trouvent seulement cette démarche de recherche d'information. Ainsi, il faut prévoir dans le système de recherche d'information proposé la possibilité de commencer la recherche d'information à partir d'un centre de syntagme nominal de plus haut niveau. Cela évitera à ces usagers de perdre du temps en naviguant dans l'arbre des SN dès le début de leur arbre ;
  • Il est souhaitable aussi que le nouveau système de recherche d'information puisse offrir la recherche d'information directement à partir d'un syntagme nominal donné. C'est-à-dire, de trouver les documents directement à partir d'un syntagme nominal complet, sans avoir le besoin de naviguer dans l'arbre de SN, étant donné que l'usager sait parfois exactement ce qu'il veut. En d'autres mots, l'usager a déjà le syntagme nominal à l’esprit et il n'a pas besoin de naviguer dans l'arbre de SN ;
  • Dans la perspective de donner d'autres choix de navigation dans la base de données, il nous semble important qu'un tel système ait des liens hypertextuels qui puissent lier un document à l'autre. Par exemple, relier tous les documents d'un même auteur, à travers un lien, pourra aider les usagers à construire d'autres démarches de recherche d'information dans la base de données. Les liens hypertextuels, par exemple, dans les champs référentiels (auteur, titre du document, titre de la série, etc.) dans la base de données permettront au système d'offrir aux usagers plus de convivialité. C'est une façon de permettre aux usagers de reformuler leurs stratégies de recherche d'information, par le biais d'une navigation non séquentielle dans l'ensemble des documents d'une base de données.

La principale réflexion que nous pouvons faire, par rapport au système proposé, est sur la nouvelle démarche de recherche d'information qu'il offre aux usagers. Les systèmes classiques de recherche d'information utilisent un seul plan de recherche. C'est-à-dire que la recherche est faite directement dans l'ensemble de documents d'une base de données. Il est vrai que la procédure de traitement de la requête et d'appariement de la requête avec les documents d'une base de données n'est pas faite directement dans les textes des documents eux-mêmes mais en utilisant un fichier d'indices ou des fichiers inversés, qui contiennent les descripteurs ou des indices avec une liste de tous les documents dont ils ont été extraits. La réponse est toujours un ensemble de documents trouvés selon ce qu'il y a dans la requête.

La proposition que nous venons de faire, offre aux usagers une démarche différente. Au lieu d'utiliser un seul plan de recherche d'information, elle y est faite en deux plans : 1) celui de la structure de SN ; 2) celui de l'ensemble de documents. Cela peut être représenté par la figure 11.1.

La figure 11.1 montre le schéma de navigation du système de recherche d'information assisté par ordinateur. La navigation est faite en deux plans, d'abord sur l'arbre des SN et lorsque les usagers trouvent le syntagme nominal qui satisfait leur besoin d'information, ils font l'accès aux documents d'où ce syntagme a été extrait. Selon encore cette proposition, les usagers peuvent naviguer dans le plan de l'ensemble de documents à partir des liens hypertextuels existant parmi les documents.

L'avantage de cette approche est le fait que ce sont les usagers qui font la recherche, naturellement aidés par l'ordinateur, puisque ce sont eux qui décident les documents qui satisfont le mieux leurs besoins d'informations. C'est là la différence entre cette approche et celle des systèmes classiques de recherche d'information. De manière opposée, les systèmes classiques cherchent et décident eux-mêmes, suivant ce que la requête leur demande, quels sont les documents que satisfont la requête et non pas les besoins d'information des usagers. Dans ce cas-là, on suppose que la requête est capable d'exprimer tout le besoin d'information des usagers. Ce qui n'est pas toujours possible.

Un autre avantage c'est le fait qu'en naviguant sur la structure des SN, les usagers apprennent ce qu'il y a dans la base de données. A part ces avantages, il faut remarquer que dans cette approche les usagers n'utilisent ni un langage de commande et ni des opérateurs booléens pour la formulation de leurs requêtes ou demandes d'information. Il ne faut donc apprendre ni l'utilisation d'un langage artificiel de commande, ni l'utilisation d'opérateurs booléens ni des connaissances de logique booléenne. Bien que cette maquette n'ait pas été soumise à une évaluation, les avantages cités et les caractéristiques interactives du système proposé paraissent pouvoir donner beaucoup plus de convivialité aux usagers que les systèmes classiques.

Ainsi, selon ce que nous avons montré là, nous pouvons consolider notre proposition en faisant un petit bilan, en énumérant ses caractéristiques principales :

  • le traitement et l'indexation automatique des documents de la base de données sont faits par le biais de la reconnaissance, l'extraction et l'indexation des SN, en construisant une structure en arbre ;
  • les documents sont stockés dans un format en langage SGML, avec des liens hypertextuels localisés dans quelques champs référentiels comme : auteurs, éditeurs, titre de publication, etc. Il est souhaitable aussi de faire des liens avec les syntagmes nominaux existant dans ces documents. Pour cela, il faut avoir des critères d'établissement de ces liens. On ne peut pas faire de liens hypertextuels avec tous les SN extraits ;
  • l'interface doit utiliser des facilités graphiques, de la couleur et de la souris pour qu'on puisse avoir plus d'interactivité et de convivialité ;
  • les menus sont construits de manière dynamique, c'est-à-dire à partir de la structure arborescente des SN de manière à permettre aux usagers d'y monter ou descendre ;
  • Dans tous les écrans, l'interface de recherche d'information doit permettre à l'usager de revenir sur le niveau précédent du syntagme nominal. Il faut d'ailleurs que l'interface permette non seulement cela, mais aussi la possibilité de revenir sur le début de la recherche d'information, soit le premier écran. L'interface doit permettre aussi à l'usager de voir les documents d'où un syntagme nominal choisi a été extrait ;
  • L'interface doit être munie d'un système d'aide contextuelle à l'usager ;

Bien que nous ayons utilisé un système de gestion de bases de données relationnelles, il faut pour un système professionnel, construire un système sur mesure avec une structure de données appropriées à la structure arborescente des SN. L'usage d'un système de gestion de bases de données marche bien pour une maquette ou pour une application administrative, mais pour une application professionnelle de recherche d'information il faut adopter une approche de développement la plus performante possible.

En concluant cette section, il faut remarquer que les structures de données présentées dans le chapitre huit sont appropriées à la navigation dans les syntagmes nominaux, selon les caractéristiques de la maquette développée dans le cadre du DEA. Pourtant, si on veut implémenter les facilités hypertextuelles et d'accès au SN de plus haut niveau à partir de son centre, il faut dessiner des nouvelles structures de données.