3.2.1 Indexation automatique par mots clés

C’est la méthode traditionnelle d’indexation automatique d’une base de données textuelle, soit de notices bibliographiques, soit de textes pleins. D’une manière générale, cette méthode consiste à extraire simplement les mots existants dans un document de la base de données. Ceux-ci sont aussi appelés mots clés ou descripteurs. La variation qu’on trouve dans cette méthode concerne le traitement de ces mots après leur extraction. Ainsi, on distingue deux de ces méthodes :

  1. les méthodes élémentaires comme la simple extraction des mots où ces mots sont des descripteurs en excluant les mots vides ;
  2. les méthodes statistiques qui consistent à définir un modèle probabiliste des occurrences des mots dans un document considéré à l’intérieur d’une collection bien définie de manière à établir leur caractère pertinent pour participer à la description du contenu.

La façon dont les descripteurs sont définis et structurés induit d’une certaine manière l’utilisation d’un type d’interface de recherche d’information spécifique. Ainsi, si les descripteurs sont organisés de manière hiérarchique, on peut utiliser une interface guidée par des menus ou même une autre guidée par un langage de commande. Par contre, si les descripteurs sont composés de mots simples, sans hiérarchie les uns par rapport aux autres, l’utilisation d’une interface guidée par des menus n’est certainement pas la plus appropriée. On aura une quantité importante de mots qui n’offrent pas une organisation adéquate pour composer les menus, sauf leur organisation par ordre alphabétique. Cela ressemble à une recherche de mots dans un dictionnaire.

Une recherche utilisant une liste de mots demande une interface capable d’offrir aux utilisateurs la possibilité de combiner les mots les uns par rapport aux autres, pour exprimer le besoin d’information de l’utilisateur. Ainsi, les SRI traditionnels les plus répandus sont ceux dont l’interface est guidée par un langage de commandes où les requêtes sont formulées à l’aide des expressions composées par des mots, par des opérateurs booléens 14 ,  et par d’autres opérateurs comme ceux de troncatures 15 et de proximité 16 . Or, selon la littérature spécialisée et dans la pratique même, on se rend compte que cette approche entraîne des problèmes de précision des résultats donnés par les SRI sur une base de données textuelles.

Certains SRI permettent l’utilisation d’opérateurs de proximité ou même l’insertion des poids (déterminés automatiquement ou par définition de l'usager) sur les mots clés. Or, les mots ont des caractéristiques qui empêchent l’obtention de bons résultats dans la procédure de recherche d’information. Le premier aspect c’est qu’un mot peut avoir des signifiés différents, selon le domaine. Par exemple : goutte peut indiquer une très petite quantité de liquide qui prend une forme arrondie ; alors que dans le champ de la médecine il indique une sorte d’inflammation douloureuse des articulations. Un autre aspect c’est que les mêmes mots peuvent être utilisés dans des phrases différentes, tout en ayant des liaisons différentes et exprimer des concepts totalement dissemblables. Exemples: Le traitement linguistique de l'information et le traitement de l'information linguistique ; l’analyse statistique de l’information et l’analyse de l’information statistique. Ces deux exemples utilisent les mêmes mots, dans chaque phrase, mais dans un autre ordre ce qui entraîne des significations différentes. Un dernier aspect concerne le phénomène de la synonymie : des mots complètement différents peuvent être utilisés pour exprimer le même concept. Par exemple, les termes tremblement de terre et séisme ont le même sens mais les mots utilisés sont complètement distincts.

Selon SMEATON 17 , ‘ « Les approches conventionnelles utilisées en Recherche d'Information telles que l'indexation basée sur les mots et la recherche par expressions booléennes ’ ‘ 18 ’ ‘ ne peuvent pour autant pas résoudre ce type de problème » ’. Il semble que dans la mesure où les problèmes de synonymie et de polysémie de mots existent toujours, il nous semble inutile de tenter de les résoudre. Le but de la recherche d’information est plutôt de trouver l’information dont l’utilisateur a besoin ou qu’il désire.

Notes
14.

Opérateur booléen sont des opérateurs utilisés dans la logique booléenne comme ET, OU ou SAUF. L’opérateur ET fait l’intersection entre deux ensembles. L’opérateur OU fait l’union de deux ensembles et l’opérateur SAUF fait l’exclusion d’un ensemble de l’autre.

15.

L’opérateur de troncature permet la spécification d’un masque dans une requête. C’est-à-dire, cet opérateur permet de faire une recherche à partir d’un préfixe ou d’un suffixe d’un mot. Exemple : inf+ Ici nous avons un opérateur de troncature (+) à droite. Cela indique au SRI que l’utilisateur veut tous les documents dont les descripteurs ont le préfixe INF. Ainsi, le SRI pourra trouver des descripteurs comme : INFORMATION, INFORMATIQUE, INFORMATIONNELLE, etc.

16.

L’opérateur de voisinage permet aux utilisateurs de construire des requêtes indiquant la position relative des mots, les uns par rapport aux autres dans les textes. Exemple : information (w) scientifiqueindique au SRI qu’il doit chercher les documents qui contiennent ces deux mots dans cette séquence.

17.

Alan SMEATON. " Prospects for intelligent, languaged-based information retrieval ". Online Review. 1991, vol. 15, n°. 6, p. 374.

18.

Expressions booléennes : dans ce contexte, c’est une expression composée par des descripteurs et des opérateurs booléens (OU, ET ou SAUF). Normalement une requête peut être composée par des opérateurs booléens ainsi que des opérateurs de proximité.