Selon ce qu’on a vu dans le schéma de la figure 1.2 et de la description, les PTI sont à la base de la préparation et de l’indexation des documents d’une base de données. On dit que le résultat de l’indexation est la représentation du contenu des documents indexés.
A quoi sert la représentation du contenu des documents d’une base de données ou les indices produits par l’indexation ? Bien que le terme représentation du contenu soit utilisé couramment dans les cours de sciences de l’information et de la communication — et ainsi que dans la littérature sur l’indexation 10 , 11 et 12 , — ceci pour désigner le résultat de l’indexation automatique, M. Le Guern rappelle que l’utilisation de ce terme est inexacte. La représentation du contenu d’un document est le texte lui-même tandis que le résultat d’une indexation se présente comme des mots ou des parties du texte du document en fonction du type d’indexation.
Certains SRI font la recherche d’information directement dans les textes pleins. Cela peut bien fonctionner pour une petite base de données, mais dès que le nombre de documents de la base de données commence à s’agrandir, cette méthode deviendra peu efficace, car le temps de réponse va sûrement augmenter. Or, la raison principale pour laquelle on indexe les documents d’une base de données c’est pour réduire le plus possible le temps de réponse d’une recherche d’information. C’est à partir de ces indices qu’un SRI peut trouver des informations en réponse à une requête. Le résultat de l’indexation n’est donc pas la représentation des contenus des documents, mais des « pistes » extraits des documents de manière à permettre aux usagers de les retrouver postérieurement.
La performance, en tant que temps de réponse d’un SRI est lié à la structuration du stockage des indices avec les adresses des documents d’où chaque indice a été extrait. Par ailleurs, la performance du SRI, en tant que précision de la réponse, est liée principalement à la technique et à la méthode d’indexation.
Comme technique d'indexation on entend la manière de le faire. On distingue donc trois techniques d’indexation :
On entend pour méthode d'indexation, la manière d'extraire et de traiter les indices. Nous allons présenter deux méthodes d’indexation automatiques de documents pour la recherche d’information textuelle. En fait, il en a plusieurs, qui ne sont que des variations de ces deux méthodes. Nous traiterons seulement ici de l’indexation automatique pour la recherche d’information textuelle primaire 13 .
« L’indexation se définit comme l’activité consistant à représenter le contenu d’un document… ». Georges VAN SLYPE. Les langages d’indexation : conception, construction et utilisation dans les systèmes documentaires. Paris : Les éditions d’Organisation, 1987. p. 21.
« In extracting indexing, words or phrases appearing in a text are extracted and used to represent the content of the text as a whole. ». Frederic W. Lancaster. Indexing and Abstracting in Theory and Practice. London : Library Association Publishing Ltd., 1991. p. 221.
« Il est souvent dit de l’indexation qu’elle donne une représentation du contenu d’un document ». Richard BOUCHÉ, Sylvie LAINÉ & Jean-Paul METZGER. « Extraction des connaissances à partir d’une collection de documents. » In. : Tools of knowledge organization and the human interface, Congrès organisé par l’ISKO (International Society for Knowledge Organization), Darmstadt (D), 14-17 Août 1990, p. 4.
L’information textuelle primaire comprend les textes d’un article, d’un livre, ou d’un autre type de documents textuels.