Chapitre II - Indicateurs de proximité prenant en compte l’ordre de présentation des documents

Nous avons présenté dans le premier Chapitre65 les quatre grands modèles de systèmes d’information documentaires : le modèle booléen, son extension basée sur la logique floue, le modèle vectoriel et le modèle probabiliste. L’un des avantages du modèle vectoriel est qu’il présente à l'utilisateur une liste ordonnée de documents réponse. Le modèle booléen en utilisant des questions formulées sous forme de vecteur binaire peut également présenter les documents d’une manière ordonnée.

En effet, le comptage d’une (ou des) forme(s) dans le document permet de représenter le texte. Dans les systèmes utilisant des pondérations, les poids attribués aux formes ou aux mots clés M j seront, la plupart du temps, de la forme P(M j ) = - p j log 2 (p j ) avec p j la proportion de documents indexés par M j. Les équations ne contenant qu’un terme seront donc ordonnées selon ce poids. Le calcul du poids des équations combinant plusieurs termes se fera suivant les contraintes suivantes.

Le poids d’une équation combinant deux termes M i , M j par une conjonction ET est supérieur au poids de l’équation combinant les mêmes termes par un OU.

P(M i ET M j )>P(M i OU M j )

Le poids d’une équation combinant deux termes M i, M j par une conjonction OU est supérieur au poids de chacun des termes M i et M j.

P(M i OU M j )>P(M i ) et P(M i OU M j )>P(M j )

Le poids d’une équation comportant l’exclusion d’un terme M i (NON M i) est fonction du poids de ce terme.

P(NON M i )=f(P(M i )), avec f une fonction de IR->IR

En respectant ces règles, il est donc possible de calculer un poids pour chaque équation booléenne. Ce poids sera utilisé pour les ordonner.

Prenons l’exemple du système SPIRIT qui sera présenté en détail au chapitre III.

Dans ce système, la base de donnée interrogée est en texte intégral et la requête s’exprime en langage naturel. Les concepts théoriques du traitement de la langue qui ont permis le développement du logiciel SPIRIT ont été posés par C Fluhr [FLU77]66. La particularité de SPIRIT est de coupler deux analyses, linguistique et statistique. « L’analyse linguistique a pour but de déterminer les unités de langage (mots, groupes de mots, mots en relation syntagmatiques) dans les textes qui serviront dans les opérations de comparaison. Ces unités de langage serviront d’évènements dans le modèle statistique. .../... L’analyse statistique a pour but de permettre le calcul de proximité sémantique entre questions (ou exposé d’un problème) et les textes stockés. » [FLU84] Le système statistique doit permettre, pour chaque mot normalisé et chaque couple en relation syntagmatique, de fournir une pondération qui dépend de l’intérêt que ces unités de langage présentent pour la recherche des textes.

Ces analyses s’appliquent aussi bien aux documents stockés dans la base qu’aux requêtes. Pour tout document, il existe un ensemble de questions booléennes composées de mots de la requête en langage naturel et des opérateurs ET (cooccurrence des mots) et RS (relation syntagmatique) et auquel le document répond vrai. Les documents réponses seront organisés sous forme de classes en fonction de la meilleure équation booléenne les représentant. En considérant le poids de chaque équation descriptive d’une classe, il est possible de proposer un ordre de présentation de ces classes. Les documents auront alors le même poids à l’intérieur d’une classe, la réponse sera semi-ordonnée. Le calcul de pondération d’un équation s’effectue de la manière suivante : le poids d’un concept (deux mots liés par une relation syntaxique) est le double de la somme des poids de chaque mot ; le poids d’une équation est la somme des poids des mots ou des concepts la composant. Ainsi :

message URL FIG008b.gif

Il existe une multitude d’indices de proximité67 pour quantifier l’écart entre deux ensembles de documents. Par exemple, si A et B sont les ensembles de documents à comparer :

message URL FIG009.gif

L’utilisation simple de ces indices a été jugée inadéquate dans le cadre d’évaluation de systèmes de RID. La solution envisagée dans le cadre de collection tests68 a été d’utiliser ce type d’indice, non pas avec deux ensembles de documents réponses du système, mais pour calculer la distance entre une réponse du système et une réponse construire par un collège d’experts. Le degré de proximité de la réponse avec cet ensemble pouvait donner alors une mesure de sa qualité. Les indices utilisés dans de telles expérimentations sont le rappel et la précision69.

Si U est la réponse du système suite à la question de l’utilisateur, G 0 l’ensemble des documents pertinents (ensemble de référence), et G 1 l’ensemble des documents non pertinents, nous aurons :

message URL FIG010.gif
Figure II-1 : formalisation ensembliste des mesures référentielles

G1 et G0 sont disjoints. L’union de G1 et G0 donnera G, l’ensemble des documents de la base de donnée.

Le rappel et la précision comparent :

L’ensemble des documents extraits pertinents :

message URL FIG010a.gif

L’ensemble des documents extraits non pertinents :

message URL FIG010b.gif

L’ensemble des documents non extraits pertinents :

message URL FIG010c.gif

L’ensemble réponse U est l’union disjointe des deux ensembles, précédemment définis,

message URL FIG010d.gif

Soient, respectivement, a, b, c les cardinaux des ensembles

message URL FIG010e.gif

Le rappel, noté R, et la précision, notée P, d’un système seront alors définit par :

message URL FIG011.gif

Ces indicateurs sont usuellement utilisés. Outre les critiques générales, abordées au Chapitre I, sur la construction de tels protocoles, ils ne sont plus assez précis dans la mesure où ils ne prennent absolument pas en compte l’ordre de présentation des documents. En effet, ils ne comparent que des intersections ou unions entre plusieurs sous-ensembles. Nous avons présenté au Chapitre I l’importance de cet ordre dans l’évaluation de la qualité d’une réponse. A titre d’exemple, nous présentons dans [MIC97], une expérimentation à petite échelle sur des documents réponse obtenus sans filtrage suivant le profil de l’utilisateur, et avec deux filtrages différents selon ces profils. Nous observons que l’ordre de présentation des unités documentaires70 est complètement modifié par l’utilisation du filtrage. Il est donc important de déterminer un indicateur permettant de quantifier le « retard » de lecture, c’est à dire prenant en compte la différence d’ordre de présentation des éléments des ensembles réponses obtenus dans ce cas.

Pour essayer de quantifier ce « retard », nous avons dans un premier temps essayé d’adapter les indicateurs usuels pour prendre en compte les classes dans les comparaisons des différents ensembles réponse. Nous présentons dans [MIC97] deux indicateurs : un indicateur de proximité entre ensembles et un indicateur d’« éparpillement » du système. Nous considérons une interrogation sans filtrage comme l’ensemble de référence. Le filtrage élimine des documents et parfois même tous les documents d’une classe. Ces indicateurs permettent de comparer les ensembles réponse obtenus avec des stratégies de filtrage différentes, selon le nombre de documents de chacune des classes, en respectant leur ordre de présentation.

Ces résultats étaient incomplets. En effet, nous comparions toujours des classes de rangs équivalents. Ce n’est pas suffisant, il faut aussi comparer les classes de rangs différents. De plus, nous n’avions pas résolu le problème de l’agrégation des résultats, c’est à dire d’un indicateur global pour une stratégie lorsque plusieurs questions étaient posées. Nous obtenions des résultats pour chacune des classes d’une réponse, mais nous ne pouvions proposer d’indice global en sommant directement chacun de ces résultats. Nous devions modérer la part prise par chaque indice de proximité selon la différence d’ordre de présentation des classes dans les deux ensembles réponses comparés. Pour résoudre ce problème, nous nous sommes orientés vers la mesure proposée par Tague. Nous l’avons présentée brièvement dans le Chapitre précédent. Nous allons la détailler ici. Nous présenterons une manière différente de l’exploiter, et comment s’en inspirer pour construire un autre type de mesure de proximité.

Notes
65.

La logique du système

66.

Les informations présentées ici ont été obtenues par communication orale avec C Fluhr. On trouvera les bases théoriques du logiciel SPIRIT dans la thèse de Christian Fluhr Algorithmes à apprentissages et traitement automatique des langues - Thèse soutenue à l’Université Paris Sud, Centre d’Orsay le 15 juin 1977 – 274 p

67.

Ces indices de ressemblance quantifient la proximité de deux ensembles en comptabilisant le nombre d'éléments qu'ils ont en commun.

68.

Présenté au chapitre I.

69.

En documentation on parlera plutôt de bruit et de silence.

70.

Les unités documentaires sont un concept propre à Profil-Doc Nous les présentons dans le Chapitre III.