II-1-1 - Présentation de la mesure

Pour calculer sa mesure Tague formalise son problème71 et construit deux ensembles :

C*(u) désigne la chaîne idéale. C’est un ensemble semi-ordonné de documents sélectionnés pour leur pertinence par rapport au besoin de l’utilisateur. Ces documents sont présentés par classe. Le terme classe ici est identique à la définition qui est donnée dans le paragraphe précédent ; tous les documents d’une même classe ont la même valeur informationnelle (au sens de Tague).

C**(u) désigne la chaîne optimale. C**(u) est composé des documents de la séquence réponse t. Ces derniers sont réordonnés par l’utilisateur de manière à produire le maximum d’information. Les éléments non informatifs (c’est à dire ceux n’appartenant pas à C*(u)) sont placés dans la dernière classe de C**(u). Cette classe est appelée q’.

m désigne le nombre de documents de la séquence réponse t  ; t = {t1,t2,...,tm}.

n désigne le nombre de documents de la chaîne optimale C**(u).

e*(t i ) désigne le numéro de la classe de t i.

n(e*(t i )) désigne le nombre d’éléments de la classe de t i.

La quantité d’information d’un ensemble réponse t va dépendre du fait que, les t i qui le compose sont pertinents - c’est à dire présent dans la chaîne idéale C*(u) - et si oui, qu’ils sont positionnés de manière à produire le maximum d’information - c’est à dire qu’ils sont ordonnés d’une manière identique que dans C**(u).Tague considère le décalage d’un document, par rapport à C**(u), comme un retard de présentation qui provoque une nuisance dans la lecture. Elle l’appelle le délai, et le note D 0. Le délai est une mesure qui doit être comprise entre 0 et 1 et qui réduit la valeur de la quantité d’information d’un ensemble de documents selon la position que les documents occupent dans la séquence réponse par rapport à la chaîne idéale.

La quantité d’information est le produit de deux facteurs :

I(t ,u) = I 0 (t,C*(u)) D 0 (t,C**(u))

La mesure I 0 est construite de manière à respecter quatre propriétés :

  1. La mesure doit être comprise entre 0 et 1.

  2. Il existe une chaîne réponse idéale C*(u) qui a une valeur informationnelle de 1.

  3. Si n est le nombre d’enregistrement de la chaîne idéale C*(u), si t k *(u) est une sous séquence de t*(u) comprenant les k premières classes, alors I 0 (t k *(u), u) est une fonction croissante du logarithme de la somme des n(k) (n(k) désigne le nombre d’enregistrements de la sous-séquence t k *(u)).

  4. Si un enregistrement t s’écrit sous la forme d’un un ensemble disjoint d’enregistrements t j  , alors on a

message URL FIG013.gif

Tague propose pour I 0 la mesure suivante :

message URL FIG012z.gif

I(t i ,u) est une mesure ordinale, en effet si Ek et Ej sont deux classes telle que j>k.

t j E j et t k E k on aura I(t j ,u) > I(t k ,u).

Ainsi si t j et t j’ E j alors I(t j ,u) = I(t j’ ,u).

Ce qui veut dire que la quantité d’information d’une classe est équitablement répartie dans tous les enregistrements de la classe.

Le deuxième terme du produit, D 0, va faire décroître cette valeur selon le nombre de documents mal ordonnés ou non pertinents présentés. Comme précédemment D 0 doit respecter trois propriétés :

  1. Le délai doit être compris entre 0 et 1.

  2. Si t est une chaîne réponse contenant tous les enregistrements informatifs dans un ordre cohérent avec C**(u) alors aucun délai ne sera observé, et donc D0=1.

  3. D0 va décroître en fonction du nombre de documents non informatifs et du nombre de permutations à effectuer pour replacer la chaîne réponse dans l’ordre de la chaîne idéale.

Tague construit deux fonctions D’ 0 et D’’ 0 pour exprimer ce délai. Ces deux fonctions dépendent de deux paramètres : X et b. X représente le calcul effectif du retard. b est un coefficient qui dépend des paramètres du système. D’ 0 et D’’ 0 sont choisies alternativement en fonction des conditions particulières de la recherche.

La première mesure D’ 0 est plus appropriée dans le cas où l’utilisateur a un temps de consultation limité. Le système ne doit donc pas lui fournir trop de documents non informatifs. D’ 0 fait « chuter » rapidement la quantité informationnelle si les documents sont mal ordonnés. D’ 0 prendra la forme d’une fonction linéaire :

message URL FIG014.gif

Dans le deuxième cas, le temps de consultation n’est pas pris en compte. Le critère de construction de la seconde mesure D’’ 0 est de considérer que, malgré le retard de présentation, aucun document est non informationnel. Elle ne diminue donc jamais la valeur informationnelle de manière à ce qu’elle atteigne 0.

message URL FIG015.gif

Dans ces deux formules X est calculé selon la formule :

message URL FIG016.gif

X 1 représente le nombre de permutations à effectuer pour replacer la séquence réponse dans l’ordre de la chaîne idéale. Il se calcule avec le coefficient de corrélation de rang R entre la chaîne réponse t(u) et la chaîne optimale C**(u). X 2 représente la proportion de documents non informatifs dans la chaîne réponse. Rappelons que m est le nombre de documents de C**(u ) et que m(q’), est le nombre de documents non informationnels de C**(u), c’est à dire le nombre de documents placés dans la dernière classe de C**(u). Le calcul de w et b est présenté en annexe (Annexe J La mesure de Tague).

Notes
71.

Bien que la notation utilisée par Tague soit parfois difficilement compréhensible, nous l’avons conservée par soucis de cohérence avec son ouvrage.