En adoptant l’approche conçue par Michel LE GUERN, reste la question : comment utiliser les syntagmes nominaux dans une interface de recherche d’information ? Est-ce qu’on peut utiliser les mêmes interfaces qu’on utilisait dans les SRI traditionnelles, celles guidées par un langage à commande ?
Du point de vue technique il semble que rien n’empêche de les utiliser comme on utilisait les mots dans des expressions booléennes. Cependant, nous pensons que l’usage de ces expressions doit changer maintenant avec les syntagmes nominaux. Etant donné que ceux-ci désignent des substances, ils sont dotés de valeurs référentielles, la construction des expressions booléennes utilisera beaucoup plus les opérateurs OU et SAUF que l’opérateur ET. En fait, cette remarque est une simple supposition sans aucune corroboration pratique. Pour corroborer cette supposition il faut faire des observations pratiques avec les usagers en utilisant un SRI avec cette approche.
Une autre remarque qu’on peut faire à cet égard, c’est par rapport à la saisie d’un syntagme nominal ou à la saisie d’une combinaison des syntagmes nominaux et des opérateurs booléens. Ce qui peut affecter la convivialité de l’interface lorsqu’on a des longues requêtes (des syntagmes nominaux longs ou des combinaisons de syntagmes nominaux longs avec des opérateurs booléens). L’ennui peut arriver non seulement de la longueur de la requête, mais aussi d’éventuelles fautes d’orthographe, fréquentes dans une saisie de textes longs. Ainsi, il nous semble que les syntagmes nominaux peuvent, dans ce contexte, améliorer la précision des résultats fournis par ces interfaces, mais ils ne peuvent certainement pas améliorer la convivialité de ces interfaces.
Geneviève LALLICH-BOIDIN dit en sa thèse : ‘ « L'interrogation d'un fonds documentaire où chaque document est représenté par une liste de syntagmes nominaux se doit de partir d'une question formulée en langue naturelle. De cette question, en sont extraits les syntagmes nominaux qui seront comparés à ceux présents dans la base. Sans entrer dans les détails d'une stratégie d'interrogation, stratégie qui est encore à l'état d'étude, l'on peut cependant avancer que, la représentation choisie est très pertinente pour une recherche documentaire, malgré quelques handicaps. » ’
Il est évident que les besoins d’information d’un usager sont ou doivent être exprimés en langue naturelle. Dans la procédure traditionnelle, à partir de cela on élabore une requête laquelle est soumise à un SRI pour trouver l’information qui on a besoin. Cette requête n’est toujours pas écrite en langue naturelle. Au contraire, elle est normalement exprimée dans un langage artificiel guidé par commandes. En ce qui concerne l’usage des syntagmes nominaux dans une procédure de recherche d’information, il n’y a aucune exigence que la requête soit faite en langue naturelle. A mon avis nous pouvons exploiter les syntagmes nominaux comme pistes pour la recherche d’information autant dans une interface guidée par un langage naturel ou un langage artificiel que dans celle guidée par menu.
Pourtant, si LALLICH-BOIDIN considère que les mots « question » et « requête » sont la même chose, cela suscite une réflexion plus profonde. En ce cas, elle me semble proposer tout simplement une procédure de recherche d’information où l’usager exprime son besoin d’information dans une requête en langue naturelle. En suite, dans sa conception, l’ordinateur extrait une liste de syntagmes nominaux présents dans la requête et la compare contre une liste pareille extrait du fonds documentaire. Or, nous savons qu’une chose, un objet peut être nommé par un ou plusieurs syntagmes nominaux. Ainsi, dans cette proposition on peut donc avoir du silence dans les résultats de la recherche. C’est-à-dire, bien que des informations soient présentes dans une base de données elles ne seront pas trouvées à cause d’utilisation de SN ou descripteurs équivalents ou synonymes à ceux présents dans les documents de la base de données. Par exemple, si l’usager cherche les documents qui parlent de « la recherche de documents », disons que dans le fonds documentaire les documents traitent plutôt de « la recherche d’information » que de « la recherche de documents ». Bien que les deux syntagmes nominaux désignent la même chose, le terme le plus utilisé dans la littérature spécialisée est « la recherche d’information ». Dans cet exemple, le SRI proposé par LALLICH-BOIDIN, ne donnera sûrement pas la bonne réponse. Il y aura du silence.
Une autre réflexion que la citation présentée suscite est : un usager, arrive-t-il à exprimer son besoin d’information du premier coup devant une base de données quelconque ? On sait, par la pratique, qu’un usager, un spécialiste ou un technicien en information n’arrive à exprimer leur besoin d’information, avec précision, qu’après l’absorption de quelques connaissances sur la base de données. C’est seulement après quelques essais de recherche d’information sur une base de données qu’on peut s’exprimer avec sûreté, en élaborant une requête, ce qu’on veut. Normalement l’usager a une idée floue de ce qu’il veut trouver. Cela peut arriver par deux raisons : 1) il ne sait normalement pas quels sont exactement les descripteurs qui expriment le mieux son besoin d’information ; et 2) il ne connaît pas comment la base de données a été indexée. Il y a évidemment plusieurs types d’usagers. Il y a ceux qui ne connaissent pas une base de données et même un SRI, il y a d’autres qui connaissent déjà un SRI mais ils ne connaissent pas la base de données qu’ils vont consulter. Et, il y a d’autres qui connaissent aussi bien le SRI que la base de données qu’ils vont consulter. Ces derniers sont des usagers expérimentés ou ce sont des spécialistes. Ces usagers savent ce qu’ils veulent et savent aussi, dans la plus grande partie des situations comment s’exprimer devant un SRI. Cependant, ils ne sont pas la majorité des usagers, bien au contraire ils sont la minorité de l’ensemble d’usagers. On ne peut pas proposer un SRI envisageant seulement cette catégorie d’usagers.
De ce qui nous avons appris dans la littérature spécialisée et aussi dans la pratique, le processus de recherche d’information devrait être une activité interactive entre l’usager et le SRI. Mais, pourquoi cela ? C’est parce qu’il faut une participation majeure de l’homme dans le processus de recherche d’information. Pour que l’usager puisse faire une demande de recherche d’information de manière correcte, il faut qu’il connaisse bien la base de données, il faut qu’il connaisse bien l’indexation de la base de données. Ces connaissances permettent aux usagers de bien élaborer leurs requêtes de manière à obtenir de bonnes réponses en satisfaisant leur besoin d’information. Il faut donc que le SRI soit interactif de façon à faciliter aux usagers l’apprentissage du langage d’indexation de la base de données.
Nous sommes d’accord que nous pouvons utiliser une liste de syntagmes nominaux extraits d’un ensemble de documents comme moyen d’accès à ces documents. Cependant nous ne pouvons pas affirmer que cela soit « une représentation très pertinente pour une recherche documentaire ». Il est vrai qu’une liste de syntagmes nominaux peut apporter plus de précision dans une recherche documentaire qu’une liste de mots isolés. Mais, pour cela il faut que le fonds documentaire soit centré sur un domaine de la connaissance le plus spécifique possible. Si le fond documentaire porte sur un large domaine de la connaissance ou s’il est multidisciplinaire, on trouvera encore des syntagmes nominaux ambigus, surtout à ceux de premiers niveaux.
Il faut encore prendre en compte les caractéristiques d’un fonds documentaire. L’utilisation des syntagmes nominaux comme moyen d’accès aux documents est plus appropriée lorsqu’on a des textes entiers des documents dans la base de données. Dans un autre côté, on n’est pas sur si l’utilisation des syntagmes nominaux est pertinente comme moyen d’accès à une base de données bibliographique. Une base de données bibliographique est composé d’informations descriptives des ouvrages, des articles (p.ex. : titre, auteur, éditeur, résumé etc.). Ainsi les seuls champs qui peuvent aider l’indexation, en apportant des pistes pour la recherche d’information, sont le titre, le sujet et le résumé. Les textes des documents d’une base de données bibliographiques ne sont donc pas dans la base. Pour qu’une liste de syntagmes nominaux soit pertinente il faut que le champ résumé soit une synthèse fidèle du document original. C’est-à-dire, il faut que les principaux syntagmes nominaux existants dans le document et qui peuvent jouer le rôle de descripteur, soient présents aussi dans le résumé. Le titre lui-même est un syntagme nominal par définition. Mais le titre ne peut pas contenir tous les syntagmes nominaux possibles de représenter des pistes qui puissent faciliter la recherche d’information. Ainsi, le modèle d’indexation automatique basé sur les syntagmes nominaux est bien adapté aux bases de données texte entier (« full text ») car elle peut fournir tous les syntagmes nominaux qui ont été inclus dans le document par son auteur. Ce qui n’arrive toujours pas dans le résumé d’une notice bibliographique.
De plus, pour la réussite d’usage des syntagmes nominaux comme moyen d’accès aux documents dans un SRI, il faut qu’ils soient organisés dans une structure qui facilite la recherche d’information. C’est-à-dire, il n’est pas suffit de remplacer les descripteurs représentés par des mots, par ceux représentés par des syntagmes nominaux. Il faut proposer non seulement un modèle d’extraction de syntagmes nominaux, mais il faut aussi ajouter une proposition d’organisation des syntagmes nominaux et un modèle d’interface de recherche d’information. C’est-à-dire, il faut proposer un nouveau modèle de SRI.
Par ailleurs, les syntagmes nominaux ont une organisation naturelle dans la mesure où ils ont un rapport d’emboîtement les uns avec les autres, ce qui permet de les rassembler dans une structure en arbre. Cette caractéristique permet de construire une interface navigationnelle capable d’exploiter les données au moyen de la navigation dans sa structure arborescente.
Pour montrer cette caractéristique on présentera un exemple, dans la figure 2.2, d’un syntagme nominal de troisième niveau 47 .
Exemple : « La représentation du contenu du document »
Dans la Figure 2.2, nous avons trois syntagmes nominaux, enchaînés en trois niveaux différents. Comme SN1 48 , nous avons le document qui a été extrait d’un SN2 49 le contenu du document lequel à son tour a été extrait d’un SN3 La représentation du contenu du document. Le rassemblement de tous les syntagmes nominaux d’une base de données permettra de construire une structure arborescente. Cette structure est bien appropriée à la construction d’une interface navigationnelle. Dans la mesure où ce genre d’interface n’exige pas la maîtrise d’un langage de commande, ni l’utilisation d’opérateurs booléens pour demander la recherche d’information ni la saisie d’une expression trop grande, il nous semble que cette interface tend à être plus conviviale.
Pour illustrer comment on peut construire une telle interface, nous allons montrer dans la figure 2.3, un sous-ensemble d’une structure de syntagmes nominaux. Le nombre qui apparaît entre parenthèses est le nombre de documents d’où chaque syntagme nominal a été extrait. D’abord, le syntagme nominal de premier niveau l’information a été extrait de 165 documents. C’est-à-dire ce syntagme nominal est présent dans 165 documents. Ensuite, on a 100 documents d’où on a extrait le syntagme l’analyse de l’information. Ce syntagme fait partie d’un syntagme nominal de troisième niveau, l’étude de l’analyse de l’information, extrait de 29 documents. Il fait partie aussi d’un autre syntagme nominal de troisième niveau, la procédure de l’analyse de l’information, extrait de 21autres documents restants. C’est-à-dire qu’il y a 50 (21 + 29) documents dont le syntagme nominal l’analyse de l’information fait partie d’un syntagme de troisième niveau. Il existe donc 50 documents qui le contiennent tout seul mais sans être lié à un autre syntagme de plus haut niveau. Dans cet exemple on peut voir clairement le processus de raffinement d’une recherche d’information, lorsqu’on descend la structure de syntagmes nominaux.
L’idée générale, c’est que l’usager fournisse à l’interface un mot qui représente son besoin d’information ou plutôt qui fait partie de son besoin d’information. A partir de ce mot, l’interface cherche et montre à l’écran, tous les SN1 ayant le mot fourni par l’utilisateur comme leur centre de syntagme. Certainement qu’à ce moment là, on aura beaucoup de bruit, mais c’est à l’utilisateur de choisir le bon syntagme nominal pour suivre la procédure de recherche d’information. Une fois choisi le bon syntagme nominal, il peut demander à l’interface : a) soit de montrer les documents d’où ce syntagme a été extrait ; ou b) un raffinement à travers la recherche des SN2 d’où ce SN1 a été extrait. L’interface répète la même procédure, elle cherche les SN2 et les montre immédiatement à l’écran et c’est à l’usager de décider l’arrêt, la suite de la navigation sur l’arbre des syntagmes ou de retourner à un niveau précédant ou au premier niveau, pour refaire la stratégie de recherche d’information. Le dernier niveau de syntagmes nominaux peut être défini soit par la programmation du système d’extraction des syntagmes nominaux, soit par une définition au préalable de la procédure d’indexation. Cependant, il semble qu’il y ait une limite naturelle du niveau des syntagmes nominaux, lequel est déterminé par la capacité humaine d’exprimer. En gros, la limite est vers le niveau 5.
L’approche proposée ici offre aux usagers une aide à la formation de la requête sans utiliser un langage de commande ou des opérateurs booléens. L’interface proposée est interactive, ce qui permet aux utilisateurs de faire des corrections de route, en améliorant leurs requêtes. C’est-à-dire que ce ne sont pas l’ordinateur ou le SRI qui font l’interprétation de la requête des usagers, ce sont eux qui conduisent la recherche d’information, ce qui donne beaucoup plus de précision aux réponses à une requête de recherche d’information.
Ainsi nous venons de voir ici, que l’interactivité peut aider à améliorer l’exactitude, dans la mesure où cela permet aux utilisateurs l’opportunité d’évaluer une réponse et de reformuler leur requête de recherche d’information.
On utilise le mot niveau pour indiquer l’ordre d’ extraction des syntagmes nominaux. Le syntagme de plus haut niveau c’est le syntagme le plus grand et le syntagme de plus bas niveau c’est le dernière syntagme nominal extrait, soit le syntagme nominal le plus simple. En effet la grandeur du niveau est inversé par rapport à l’ordre d’extraction.
Syntagme Nominal de premier niveau.
Syntagme Nominal de deuxième niveau.