1 SRI traditionnel : encore une remise en cause

Tout d’abord il faut comprendre un SRI traditionnel. La plus grande partie de ces systèmes a comme caractéristiques : a) l’utilisation de mots clés comme descripteurs ; b) l’utilisation des expressions booléennes pour la recherche d’information.

On peut dire que l’indexation des documents d’une base de données n’a du sens que pour la recherche d’information. C’est elle qui extrait des documents les informations nécessaires pour qu’on puisse les retrouver à posteriori. Ces informations sont appelées descripteurs. On a vu dans le premier chapitre qu’encore aujourd’hui la plus grande partie des SRI extrait des mots pour indexer les documents. C’est-à-dire que ces systèmes prennent les mots comme chemin pour retrouver les informations dans une base de données. Pourtant, les résultats fournis par ces systèmes, lorsqu’une recherche est faite en utilisant des requêtes composées par des mots et des opérateurs booléens (ET, OU, SAUF), ont une faible précision voire avec des taux de bruit importants.

Mais, d’un autre côté, selon la littérature consultée et aussi selon la pratique, on voit que la précision s’améliore lorsqu’on fait une recherche en utilisant des opérateurs de voisinage ou de proximité. Or, dans les deux cas on utilise les mêmes mots qui ont été indexés par la même procédure d’indexation.

La différence entre les deux cas, c’est que lorsqu’on utilise les opérateurs de proximité, le SRI fait l’appariement entre les mots extraits des documents et ceux qui se trouvent dans la requête, en utilisant aussi des informations sur la localisation des mots dans chaque document en tenant compte de leur ordre de précédence, les uns par rapport aux autres.

Selon Georges Van Slype, ‘ « l’indexation se définit comme l’activité consistant à représenter le contenu d’un document ou d’une question de manière analytique, c’est-à-dire à en recenser les concepts et/ou les mots. » ’ ⁴³ . Selon la dernière partie de cette définition, il est question de recenser soit les concepts et les mots, soit les concepts ou les mots. On peut accorder que les concepts, extraits d’un document, puissent représenter son contenu. Mais une liste de mots ne peut représenter que l’ensemble des unités lexicales existant dans le document.

Selon Michel LE GUERN, ‘ « Pour que le descripteur remplisse sa fonction, qui est de mettre en relation un objet du monde — une entité extralinguistique — avec le document qui apportera des informations sur cet objet, il faut que le descripteur soit un signe indiciaire » ’ ⁴⁴ . LE GUERN prend la terminologie de Peirce pour distinguer le mot de la langue (légisigne symbolique rhématique dans la typologie peircienne) de l’occurrence de ce même mot dans le discours (caractérisé comme un sinsigne indiciaire rhématique).

Or, un mot en tant qu’unité du lexique ne signifie que des propriétés. Il ne fait aucune référence à l’univers du discours. Tandis que dans le texte, le mot fait partie d’un contexte qui lui donne un sens spécifique. À ce moment là, il fait partie des signes indiciaires.

Lorsque l’auteur rédige un texte il rassemble les mots dans un ordre, de manière à décrire un fait, un objet du monde réel. C’est-à-dire que les mots passent d’un état où ils ne désignent que des propriétés à un autre état où ils désignent des sens spécifiques, en faisant partie du discours, en composant des unités d’information.

Il est vrai qu’il y a des SRI qui gardent aussi, au moment de l’indexation automatique, des informations sur la localisation du mot dans le texte, ce qui permet à l’interface d’offrir la facilité d’une recherche en utilisant des opérateurs de voisinage ou de proximité. Ce genre de facilité donne plus de précision aux résultats d’une recherche d’information. On peut donc imaginer que lorsqu’on garde les coordonnées d’où les mots ont été extraits dans les textes, on garde la liaison, entre les mots, construite par l’auteur.

La procédure d’indexation, utilisant l’extraction des mots, fait une démarche inversée par rapport à celle de l’auteur lorsqu’il écrit le document. La liste de mots — résultat de l’indexation automatique — est un ensemble de mots isolés les uns par rapport aux autres, ils ne désignent donc que des propriétés. Cette liste ressemble à un sous-ensemble d’un dictionnaire. Pourtant, elle peut être représentative si on l’utilise en conjonction avec les coordonnées (ou les positions) de chaque mot dans le document. En gardant les coordonnées de cette manière, on garde aussi leur contexte.

Le but de l’indexation est d’extraire des informations d’un document pour qu’on puisse le représenter de manière plus précise et de permettre aux utilisateurs de le retrouver à posteriori. Puisqu’on cherche des informations et pas des mots, l’indexation alors devrait extraire des unités d’information. On revient à la conception du descripteur de M. LE GUERN.

Quand on fait une recherche d’information en utilisant des expressions booléennes, on ne tient compte d’aucune liaison entre ces mots, les uns par rapport aux autres, ni même d’une indication d’ordre de précédence entre eux. En réalité, l’expression booléenne, est une procédure de sélection de documents basée simplement sur l’existence ou non de mots qui sont dans l’expression, à l’intérieur de chaque document. Par contre, lorsqu’on utilise des opérateurs de proximité, on spécifie de manière indirecte l’ordre de précédence et le contexte du mot, au moins leur voisinage. Ainsi, un SRI traditionnel ne peut pas être appelé comme tel, mais il serait plus précis de l’appelé Système de Recherche de Mots. Pour illustrer le problème d’utilisation des opérateurs booléens, on présentera l’exemple suivant :

Si on veut trouver des documents sur le développement de recherches scientifiques et techniques par contrat avec des entreprises privées, utilisant un SRI guidé par langage de commande, on doit construire une expression du type : développement ET recherche ET scientifique ET technique ET contrat ET entreprises ET privés. Cette requête ne garantissant pas que le SRI ira trouver des documents concernant le sujet : le développement de recherches scientifiques et techniques par contrat avec des entreprises privées. La seule garantie c’est qu’il va retrouver tous les documents qui ont les mots développement, recherches, scientifiques, techniques, contrat, entreprises et privées mais sans aucun rapport avec la séquence des mots ni avec la proximité de chacun d’eux, les uns par rapport aux autres. Ainsi, le SRI peut ramasser des documents qui ont le mot contrat dans un paragraphe parlant de campagne publicitaire, le mot développement dans un autre et la phrase recherches scientifiques et techniques dans un autre paragraphe et ainsi de suite. Dans ce contexte, il peut ramasser de documents qui parlent de contrat publicitaire dans une entreprise intéressée par le développement d’une campagne publicitaire sur les recherches scientifiques et techniques dans les entreprises privées. Et on peut également trouver ce qu’on veut, soit des documents qui parlent aussi des développements de recherche scientifique et technologique par contrat avec des entreprises privées.

On arrive donc à deux conclusions : 1) une recherche par expressions booléennes ne peut pas assurer une réponse avec une bonne précision, il y aura toujours un taux de bruit plus ou moins important, dépendant du volume d’information de la base de données ; 2) un utilisateur aura du mal à formuler précisément son besoin d’information en utilisant seulement une combinaison de descripteurs et des opérateurs booléens dans une requête. Ou de façon inverse, un SRI aura du mal à comprendre exactement ce que l’utilisateur veut, en analysant simplement des expressions booléennes.

Notes

43.

Georges VAN SLYPE. Les langages d’indexation : conception, construction et utilisation dans les systèmes documentaires. Paris : Les éditions d’Organisation, 1987. p. 21.

44.

Michel LE GUERN. « Un analyseur morpho-syntaxique pour l’indexation automatique ». Le Français Moderne. Juin, 1991, t. LIX, n°. 1, p. 23.