3.2 Procédure de traitement de l’information (PTI)

Selon ce qu’on a vu dans le schéma de la figure 1.2 et de la description, les PTI sont à la base de la préparation et de l’indexation des documents d’une base de données. On dit que le résultat de l’indexation est la représentation du contenu des documents indexés.

A quoi sert la représentation du contenu des documents d’une base de données ou les indices produits par l’indexation ? Bien que le terme représentation du contenu soit utilisé couramment dans les cours de sciences de l’information et de la communication — et ainsi que dans la littérature sur l’indexation ¹⁰ , ¹¹ et ¹² , — ceci pour désigner le résultat de l’indexation automatique, M. Le Guern rappelle que l’utilisation de ce terme est inexacte. La représentation du contenu d’un document est le texte lui-même tandis que le résultat d’une indexation se présente comme des mots ou des parties du texte du document en fonction du type d’indexation.

Certains SRI font la recherche d’information directement dans les textes pleins. Cela peut bien fonctionner pour une petite base de données, mais dès que le nombre de documents de la base de données commence à s’agrandir, cette méthode deviendra peu efficace, car le temps de réponse va sûrement augmenter. Or, la raison principale pour laquelle on indexe les documents d’une base de données c’est pour réduire le plus possible le temps de réponse d’une recherche d’information. C’est à partir de ces indices qu’un SRI peut trouver des informations en réponse à une requête. Le résultat de l’indexation n’est donc pas la représentation des contenus des documents, mais des « pistes » extraits des documents de manière à permettre aux usagers de les retrouver postérieurement.

La performance, en tant que temps de réponse d’un SRI est lié à la structuration du stockage des indices avec les adresses des documents d’où chaque indice a été extrait. Par ailleurs, la performance du SRI, en tant que précision de la réponse, est liée principalement à la technique et à la méthode d’indexation.

Comme technique d'indexation on entend la manière de le faire. On distingue donc trois techniques d’indexation :

indexation manuelle ou indexation faite par des personnes Cette technique d’indexation est souvent utilisée pour l’indexation des bases de données bibliographiques ou bases de données référentielles. C’est une technique dépendante des personnes, car sont eux qui font l’indexation, à partir de l’analyse des documents. De cette analyse sortent les descripteurs, soit attribués à l’aide d’un vocabulaire contrôlé (thesaurus et d’autres langages d’indexation), soit attribués librement. Ceux qui s’occupent de ce type d’indexation sont des documentalistes ou souvent des spécialistes du domaine de connaissance de la base de données ;
indexation mixte ou indexation assistée par ordinateur A l’instar de la technique d’indexation manuelle, cette méthode est aussi souvent utilisé pour l’indexation des bases de données bibliographiques. Tout d’abord l’ordinateur fait l’indexation des documents existant dans la base de données et après un documentaliste ou spécialiste du domaine de la base de données revoit l’indexation la complétant et/ou la corrigeant. Là encore on utilise des vocabulaires contrôlés pour aider l’indexation ;
indexation automatique C’est une technique d’indexation qui peut être utilisé autant pour des bases de données bibliographiques que pour des bases de données texte plein. Du point de vue technique, rien n’empêche de faire l’indexation des bases de données textes pleins par les deux techniques précédents. Le problème principal est le temps de traitement d’un document texte plein. Il est plus économique et plus rapide de les indexer par des techniques automatiques. Ceci est justifié, non seulement par la taille de ces documents mais plutôt par leur volume, lesquels ont augmenté, aujourd’hui de manière phénoménale. C’est réalisable aussi à l’aide de vocabulaires contrôlés.

On entend pour méthode d'indexation, la manière d'extraire et de traiter les indices. Nous allons présenter deux méthodes d’indexation automatiques de documents pour la recherche d’information textuelle. En fait, il en a plusieurs, qui ne sont que des variations de ces deux méthodes. Nous traiterons seulement ici de l’indexation automatique pour la recherche d’information textuelle primaire ¹³ .

Notes

10.

« L’indexation se définit comme l’activité consistant à représenter le contenu d’un document… ». Georges VAN SLYPE. Les langages d’indexation : conception, construction et utilisation dans les systèmes documentaires. Paris : Les éditions d’Organisation, 1987. p. 21.

11.

« In extracting indexing, words or phrases appearing in a text are extracted and used to represent the content of the text as a whole. ». Frederic W. Lancaster. Indexing and Abstracting in Theory and Practice. London : Library Association Publishing Ltd., 1991. p. 221.

12.

« Il est souvent dit de l’indexation qu’elle donne une représentation du contenu d’un document ». Richard BOUCHÉ, Sylvie LAINÉ & Jean-Paul METZGER. « Extraction des connaissances à partir d’une collection de documents. » In. : Tools of knowledge organization and the human interface, Congrès organisé par l’ISKO (International Society for Knowledge Organization), Darmstadt (D), 14-17 Août 1990, p. 4.

13.

L’information textuelle primaire comprend les textes d’un article, d’un livre, ou d’un autre type de documents textuels.