I-6-4 - Les mesures de la pertinence de la recherche d’information

a. Les mesures quantitatives

Les paramètres les plus souvent utilisés depuis plus de 30 ans pour la mesure de la performance de la recherche sont [SAL92] : le rappel (R), qui est la proportion de documents pertinents trouvés par rapport au nombre de documents de la base, et la précision (P), qui est la proportion de documents pertinents trouvés par rapport au nombre total de documents pertinents contenus dans la base. Les résultats des tests de Cranfield (décrit au paragraphe suivant) ont montré que le rappel et la précision varient de manière inversement proportionnelle, plus le rappel est grand et plus la précision décroît. On fait alors l’hypothèse qu’un système est bon s’il a un bon rapport de rappel de 60% (un large nombre de documents est rapatrié) et un rapport de précision de 40% (proportion de documents « hors sujet » rejetées), l’idéal (irréalisable) étant que l’un et l’autre soit à 100%.

Ces deux mesures ont été très largement utilisées, elles ne sont cependant pas universellement admises. Une des critiques porte sur le mode d’expression du jugement de pertinence de l’utilisateur. En effet, dans les cas ou l’on calcule des ratios de rappel et de précision, l’utilisateur exprime sa satisfaction d’une manière « binaire » ; le document est pertinent ou non-pertinent. Ce mode d’expression tronque considérablement la variabilité et la complexité du jugement de pertinence. De plus, l’efficacité de la recherche dépend de la capacité du document à répondre à la question, ou plus généralement au besoin d’un utilisateur. Cooper remarque que l’utilité d’un document et sa pertinence sont des notions différentes⁵⁷. En effet, un système ayant un fort taux de rappel rapatrie beaucoup de documents ; les documents sont ainsi pertinents vis à vis d’une question alors qu’ils peuvent être inutilisables par l’utilisateur pour de multiples raisons. A contrario, un système, s’il est correctement optimisé, peut ne rapporter à l’utilisateur que le document le plus pertinent avec pourtant un taux de rappel très faible. Dans certains cas, Cooper [SAL92] souligne que seul le rapport de précision est vraiment efficace. La E-mesure de Sweet [TAG95] ou celle de Cooper prennent en compte des indicateurs supplémentaires en plus du rappel et de la précision : la taille de la collection, des mesures de probabilités de distribution, le nombre de documents rapatriés ou la longueur de la recherche (i.e. le nombre de documents que l’utilisateur visionne avant d’en trouver un qui l’intéresse). Ces mesures sont certes plus complètes mais plus difficilement interprétables.

Il existe bien sûr un certain nombre de mesures quantitatives différentes pour la mesure des systèmes d’information. Les décrire toutes relève de l’utopie⁵⁸. Actuellement, ce genre de mesures devient obsolète pour des tests d’évaluation. En effet, ils sont maintenant généralement faits par comparaison des systèmes selon différentes stratégies de recherche, à l’aide de collections tests obtenues à partir de corpus variés. On fait dans ce cas l’hypothèse que les résultats seront les mêmes pour le système en grandeur nature. Ce type de test produit une masse d’information, inutilisable telle quelle. Une analyse statistique permet de synthétiser cette masse, d’en extraire du sens et lui donner une interprétation.

Notes

57.

Nous reviendrons sur ces notions.

58.

On pourra trouver un tableau qui en présente quelques-unes dans [TAG95] p 168.