Etape 3 : Calcul de l’indice de proximité moyen μ P δ i pour chaque groupe Qi de la partition 5.

L’analyse d’une stratégie suppose d’agréger l’ensemble de ces mesures pour obtenir un indice global de proximité d’une stratégie par rapport à une autre pour toutes les questions d’une catégorie d’utilisateur (un profil). Nous avons présenté au chapitre II les résultats d’une expérimentation ou nous comparions ces diverses mesures. Notre propos était alors d’observer, pour chaque stratégie de recherche, la différence entre une mesure de Jaccard et une mesure de proximité ordonnée. Pour pouvoir dégager des conclusions, nous avions besoin d’avoir des courbes les plus régulières possibles, nous avions donc choisi d’ordonner la mesure de proximité de manière croissante. Si cette technique permet d’observer des distributions, mais elle ne permet pas de comparer les stratégies entre elles. En effet l’ordre des questions est modifié pour chaque graphique en fonction de P δ.

Nous avons présenté au chapitre IV-3-1 une manière de partitionner l’ensemble de questions en fonction du volume réponse. Rappelons que la partition que nous avons choisie divise le corpus de question Q en 43 groupes : le groupe 1 (noté Q1) ramène entre 1 et 5 UD, le groupe 2 (noté Q2) entre 5 et 10..., le groupe 43 (noté Q43) rassemble les questions ramenant plus de 216 UD.

Nous calculerons, pour chaque partition :

message URL FIG227.gif

une moyenne de la valeur P δ (C 0 ij , C Sn ij ), pour la partition Qi dans le cas d’une interrogation avec la stratégie n.

Pour chaque stratégie Sn et pour chacun des ensembles Qi nous dresserons le tableau suivant :

Tableau IV-5 : Principe de globalisation des résultats
Partition i Questions Corpus réponse
Stratégie 0
Corpus réponse
stratégie n
Pd(C, C’) Moyenne
qi1 C 0 i1 C Sn i1 P δ (C 0 i1 , C Sn i1 )
qi2 C 0 i2 C Sn i2 P δ (C 0 i2 , C Sn i2 )
Qi qi3 C 0 i3 C Sn i3 P δ (C 0 i3 , C Sn i3 ) μ P δι n
qig C 0 ig C Sn ig P δ (C 0 ig , C Sn ig )

Le tableau terminal de données analysées se présente alors sous la forme :

message URL FIG230.gif
Figure IV-15 : Forme du corpus de données utilisé pour l’évaluation de la recherche d’information

Xin représente la moyenne μ P δ i n calculé pour chaque question q ij du groupe Qi de la partition 5, dans une interrogation ou l’on utilise la stratégie n.