a. Formalisme du problème.

Considérons donc un système pouvant utiliser une stratégie de filtrage S α. Le filtrage se fera suivant certaines propriétés P i. Ces propriétés sont attribuées soit directement par l'utilisateur, soit par le système en fonction du profil de l'utilisateur. L'ensemble C s α est composé des documents de la base sélectionnés par les propriétés Pi.

La question Q i d’un utilisateur se décomposera donc en une requête q i et un ensemble de propriétés P i .

La requête qi est le moyen pour l'utilisateur de décrire ses besoins. Elle s'exprime dans un langage compris par le système. Le filtrage permet de préciser le contexte sémantique utilisé par l'utilisateur. Prenons un exemple utilisant un homographe. Considérons une propriété qui décrit dans quelle langue est écrit le document. La question Q1 composée de la requête q1="file" et la propriété P1 : langue = "francais" sera totalement différente, au niveau du champ sémantique à la question Q2 composée de la même requête q1="file" mais de la propriété P2 : Langue = "anglais". Les deux questions Q1 et Q2 ne s'expriment pas du tout dans le même contexte sémantique. Nous définirons donc les mots "informationnels" comme les homographes des mots de la requête, exprimés dans le contexte sémantique de l'utilisateur. Les documents de C0 que l’on ne retrouve pas dans C1S α ont de grandes chances de correspondre à du bruit. Le renseignement de ce contexte se faisant par l'attribution de propriétés de filtrage, nous définirons donc les mots "informationnels" de la requête comme ceux qui, après filtrage, référencent les documents réponse. Nous considérerons que la requête q i se compose d’un ensemble de mots informationnels X i et d’un ensemble de mots non informationnels q i -X i.

Nous appellerons C 0 l’ensemble réponse à la question sans filtrage. C0 contiendra donc l'ensemble des documents décrits par les mots ou ensembles de mots de qi.

On attribue une pondération à ces mots ou ces ensembles de mots. Cette pondération permet d'ordonner la présentation des documents réponse. Ces derniers seront donc présentés dans des classes générées suivant les mots qui décrivent les documents. En fait se sont ces classes qui sont ordonnées, pas directement les documents. Nous parlerons de réponses semi-ordonnées.

Soit C 1s α l’ensemble réponse à la même question avec filtrage. C1s α contiendra donc l’ensemble des documents de la base possédant la double particularité d’être décrits avec les mots "informationels" de qi et avec les propriétés P i attendues par l’utilisateur.

Nous pouvons donc considérer, au regard de ces hypothèses, que C1S α est plus pertinent pour l'utilisateur que C0. En effet, ce dernier sera composé de documents réponses qui prendront en compte tous les homographes des termes de la question alors que C1S α ne présentera que les documents dans lequel le référent est compris au sens du domaine spécifié. C0 contiendra deux types d’unités documentaires non pertinentes : ce seront d’une part les unités documentaires de nature non conforme, c’est à dire ne validant pas toutes les propriétés P i précédentes ; et d’autre part, les unités documentaires indexées par les mots non "informationnels" de la requête.