3.2.2 Indexation par unités complexes 19

Cette méthode d’indexation privilégie la phrase, et non les mots pris isolément, dans la procédure d’indexation et de recherche d’information. Son objectif est d’obtenir, à partir de l'analyse linguistique des documents, les structures syntaxiques qui sont extraites et organisées sous forme d'arbre ajouté aux informations syntaxiques des unités de la phrase. Cette structure est utilisée dans la procédure de détermination de la similarité entre les documents et les requêtes. Comme exemple d’utilisation de cette approche, on trouve le projet ESPRIT SIMPR 20 .

Dans un autre côté, selon BOUCHÉ, l’approche développée au sein du groupe SYDO part du principe ‘ que « le lexique, en tant que composant de la langue, ne contient que des éléments qui sont des propriétés, c’est-à-dire des prédicats. Le mot est donc un prédicat et il ne peut pas être considéré de façon isolée car il fait référence à un objet de la réalité extra-linguistique de l’auteur du document. Il ne peut pas exprimer ‘ce dont parle le document’. Il ne peut donc pas être un descripteur » 21 .

LE GUERN étant le précurseur de l’approche développée par le groupe SYDO, corrobore cette approche, disant : ‘ « La finalité du descripteur exclut qu’on puisse l’envisager en faisant abstraction de la valeur référentielle de ses occurrences dans le corpus. Les mots de la langue, en tant qu’ils sont mots de la langue, ne signifient que des propriétés, jamais des entités ; ils signifient des attributs et non des substances, tant qu’ils ne sont pas mis en œuvre dans le discours. Le descripteur, quant à lui, signifie une entité, une substance au sens de la philosophie d’Aristote. Le descripteur ne peut donc pas être considéré, à l’instar des mots de la langue comme un symbole sans référence. » 22

Le fait que le mot, pris isolément, soit un signe sans référence de même que l’idée que les descripteurs devraient être un signe avec références renforce la validité de l’approche menée par SMEATON, à savoir l’utilisation de la phrase comme descripteur au lieu d’utiliser les mots isolés.

Dans l’approche de l’utilisation d’une phrase comme descripteur, cela veut dire que les mots sont laissés dans leurs contextes, comme les auteurs les ont rassemblés, en opposition à l’indexation traditionnelle, où les mots sont détachés de leurs contextes.

Par analogie, l’approche adoptée par SMEATON ressemble à celle du groupe SYDO. Selon Richard BOUCHÉ, ‘ « … la plus petite unité du discours porteuse d’une valeur référentielle est le syntagme nominal. C’est elle qu’il importe d’identifier dans le document » 23 . C’est-à-dire que le descripteur doit être représenté par le syntagme nominal.

Quelques travaux ont été réalisés pour l’extraction des syntagmes nominaux dans des textes en langue française. Parmi eux nous citons les thèses de : J-P. METZGER, de Omar LAROUK, Marcilio DE BRITO.

Notes
19.

Unités complexes dans ce contexte c’est des unités d’information représentées par des phrases ou des syntagmes nominaux.

20.

Ce projet utilise la phrase comme moyens d’accès à l’information. C’est-à-dire qu’il fait l’indexation et la recherche d’information par le biais d’utilisation des phrases. Ces phrases sont organisées dans une structure que s’appelle TSA - Tree Structured Analitics (arbres analytiques structurés). Cette structure consiste en un arbre binaire où sont stockées des informations comme : mots originels de la phrase, leurs formes de base, étiquettes de catégorie lexique, morphologique et syntaxique. La procédure de recherche d’information utilise cette structure pour trouver les informations demandées par les requêtes. Ces requêtes sont constituées de phrases. C’est-à-dire, l’unité utilisée dans une requête est une phrase et non pas les mots comme dans les SRI classiques. SMEATON, Alan F. et SHERIDAN, Paraic. " Using Morpho-Syntaxique Language Analysis in Phrase Matching ". RIAO 9 : Recherche d'Information Assistée par Ordinateur. Barcelona, 1991. vol. 1, p. 414-430.

21.

Richard BOUCHÉ. « Le Syntagme Nominal, une Nouvelle Approche des Bases de Données Textuelles ». Meta. 1989, vol. 34, n°. 3. p. 429.

22.

Michel LE GUERN. « Les descripteurs d’un système documentaire, essai de définition ». In. : Bès, G.C., Fauchère, P.M., Lagueunière, F. Actes du Colloque " Traitement automatique des langues naturelles et systèmes documentaires ". Condensé, supplément I,Université Clermont Ferrand, 1982. p.165-166.

23.

Richard BOUCHÉ. " Le Syntagme Nominal, une Nouvelle Approche des Bases de Données Textuelles ". Meta. 1989, vol. 34, n°. 3. p. 430.