II-6- Indices complémentaires utilisant le fait que le système possède une fonctionnalité de seuil d'exclusion

II-6-1 - Le seuil d’exclusion

La plupart des systèmes utilisent un seuil d’exclusion pour ne présenter qu’une partie des documents réponses, ceux considérés comme les plus pertinents. Le principe le plus couramment utilisé consiste à organiser les documents réponses dans des classes, d’ordonner ces classes selon une pondération, et d’éliminer les classes dont la pondération est inférieure au seuil. C’est le principe utilisé par SPIRIT77. Le seuil d’exclusion a pour fonction de diminuer le bruit. Par exemple, certaines questions peuvent comporter des requêtes textuelles très longues. Ces requêtes ne manqueront pas d’engendrer un grand nombre de documents réponse. L’administrateur peut paramétrer le système en augmentant le seuil d’exclusion, c’est à dire qu’il ne conserve que les classes de documents réponse de pondération forte. Ceci permet de ne pas s’encombrer de documents peu pertinents, qui contiennent seulement quelques-uns des mots trouvés dans les critères textuels d’une question «longue».

Dans le cas des systèmes d’information comprenant un module de filtrage il est particulièrement intéressant de prendre en compte ce seuil d’exclusion. En effet, si l’administrateur du système met en place ce seuil, il va permettre l’élimination de certains documents selon les mots ou index qui permettent de les extraire de la base78. La plupart du temps, le seuil ne portera pas sur les caractéristiques de filtrage. Cependant, l’évaluation de tels systèmes doit observer à la fois l’adéquation question-document et le processus de filtrage. Il est donc intéressant de pouvoir dissocier ces deux types de sélections de documents de la base de données.

Notes
77.

Nous allons le décrire dans le Chapitre suivant.

78.

Ce processus en souvent appelé l’adéquation question-document.