IV-1-2 - Evaluation de la stratégie de filtrage Profil-Doc

Figure IV-2 : Le filtrage selon l’usage et le filtrage selon le contenu pour la recherche d’information selon Profil-Doc

Ces liens concernent la prise en compte de l’utilisateur dans sa recherche d’information. Le jugement de pertinence du corpus réponse sera basé sur les propriétés qui décrivent les documents et sur leur adéquation avec l’usage supposé qui en sera fait, le contenu n’important pas. Nous ne tracerons en effet aucun lien permettant de représenter la pertinence de la réponse par rapport à la question. Notre but ici, comme nous l’avons dit précédemment, n’est pas de tester le comportement du module d’appariement question/documents de SPIRIT.

Les liens 3 et 4 concernent la prise en compte des caractéristiques de l’utilisateur. Nous allons analyser l’impact des stratégies de sélection des unités documentaires (par le vecteur résultant et la fonction d’aiguillage). Pour valider si l’adéquation des propriétés avec les caractéristiques est correcte, nous ne pouvons nous référer qu’à notre savoir empirique des usages de lecture des articles scientifiques. Nous allons donc, pour des profils spécifiques référencés¹¹⁴, analyser quelles sont les propriétés sélectionnées.

Les liens 5 et 6 concernent plus particulièrement le fonctionnement des modules de stratégie de sélection. Ce type d’évaluation doit nous permettre de faire des choix quant aux vecteurs et aux fonctions à utiliser. Nous avons déjà précisé que l’impact d’une stratégie de filtrage de type Profil-Doc par comparaison de l’ensemble réponse correspondant à une question et un filtrage avec un ensemble réponse où seule cette question intervient. Une analyse d’une stratégie par rapport à une autre se fera par comparaison des ensembles réponse obtenus pour une question.

La comparaison des différents ensembles sera faite, pour chaque question, avec la mesure de proximité ordonnée P δ présenté au chapitre II.

Rappelons que son calcul s’effectue de la manière suivante :

Si C et C’ sont deux réponses du système pour la même question avec deux stratégies de filtrage différentes. C i l’ensemble des classes de C (i variant de 1 à m)et C’ j une classe de C’ (j variant de 1 à m’)

Nous obtiendrons, pour chaque question, une valeur de la proximité des deux ensembles réponse obtenus si l’on interroge suivant deux stratégie, cette valeur de proximité étant calculée à partir de la mesure ci-dessus.

L’analyse d’une stratégie suppose de poser un ensemble de question. L’analyse d’une stratégie supposera que l’on est en mesure d’agréger l’ensemble de ces mesures pour obtenir un indice global de proximité d’une stratégie par rapport à une autre pour toutes les questions d’une catégorie d’utilisateur (un profil). Nous présenterons dans la suite la méthode d’agrégation utilisée.

Notes

114.

Les connaissances empiriques que nous avons sur les usages de lecture proviennent en particulier d’un questionnaire que Ben Abdallah a effectué auprès de chercheurs en sciences pharmaceutiques. Nous pouvons reprendre les profils de certains de ces chercheurs et les tester.