c. La construction

Comment construire des outils fonctionnels ? Quels sont les modèles mathématiques possibles ?

Mizzaro cite un certain nombre de modèles. Par exemple, Maron et Khuns travaillent sur des modèles utilisant les probabilités. Ils partent du principe que le jugement de pertinence ne peut s’exprimer brutalement par un oui ou un non et que l’on peut utiliser les probabilités pour faire apparaître plus de finesse. Saracevic fait un parallèle avec les distributions bibliométriques. En bibliométrie des lois modélisent le fait que certains mots ou auteurs apparaissent plus fréquemment que d’autres. Saracevic considère que c’est un phénomène identique, régi par une loi de pertinence, qui fait que certains documents sont plus souvent retrouvés que d’autres. Cooper50 et Wilson51 construisent un modèle utilisant la logique mathématique. Cooper fait l’hypothèse qu’une phrase s est pertinente par rapport à une phase r, dans la mesure où s valide un nombre minimal de prémices de r. Wilson complète ce modèle en introduisant la quantité d’information connue et le besoin de l’utilisateur.

En 1991 sont engagées les premières études sur les possibilités de déterminer la mesure de la quantité d’information d’un ensemble de documents à partir de celle de chacun d’eux. Les travaux portent sur les conditions d’additivité entre autre.

Toujours en 1991 Su [SU91] commence une étude sur 4 ans où elle analyse et classifie 20 indicateurs importants d’estimation des performances de systèmes de recherche d’information. Elle va observer l’utilité et l’impact de chacun d’eux, et s’il existe des liens éventuels ou des recoupements entre eux qui rendraient possible une simplification ou une globalisation des mesures. Elle crée une typologie des mesures selon ce qu’elles mettent en valeur : la pertinence52, l’efficacité53, l’utilité54 de la recherche ou la satisfaction55 de l’utilisateur. Les études menées sur la mesure de précision montrent qu’elle ne semble pas liée avec aucune autre. Par contre, sept autres mesures sont liées (donc redondantes), il est donc possible de les rassembler en une seule. Su crée une 5ème typologie de mesure qui rassemble les mesures indépendantes les plus significatives et qui doit mettre en valeur le succès global de la recherche estimé par l’utilisateur.

Les recherches actuelles portent sur des mesures orientées vers l’utilisateur et non plus uniquement le système. Park parle d’un « paradigme naturel de la recherche », opposé à un paradigme rationnel, qui considère aussi l’utilisateur pour étudier la pertinence. Elle considère qu’une méthode qualitative est incontournable pour prendre en compte son comportement informationnel.

On observe la double importance prise d’un côté par les études de type cognitives orientées vers l’utilisateur, celles de Schamber et al [SCH90], [SCH94], Harter [HAR92], Park [PAR94] et Su par exemple, et de l’autre, dans la continuation des travaux antérieurs, celles qui se sont attachées à chercher un modèle logique de la recherche d’information (IR). Le travail de Van Rijsbergen [VAN86A], [VAN86B], [VAN89] a, sur ce point, donné lieu à bon nombre d’études proposant des modélisations plus fines et plus complexes.

Comment définir la pertinence ? Existe-t-il une seule définition ou plusieurs ? Dans ce dernier cas, comment les référencer et les classifier ?

Une distinction est faite entre la pertinence d’un document par rapport à un sujet, une requête, (on parle alors de « relevance ») et la pertinence pour l’utilisateur (on parle alors de « pertinence ») dans laquelle entrent les notions de besoin et d’utilité. La relevance est objective alors que la pertinence ne l’est pas.

Il existe une multitude de définitions de la pertinence. Il n’existe certes aucun paradigme sur le sujet, mais ce n’est pas la seule explication possible. En effet, il ne faut pas considérer qu’il existe un concept de pertinence unique et dont on peut donner une définition précise. Selon les objets comparés, nous pouvons définir différents types de pertinence. Repartons du schéma général de l’interrogation (cf. figure I-3) et inscrivons y les liens de pertinence :

message URL FIG007.gif
Figure I-7 : Des exemples de liens de pertinences dans la chaîne d'interrogation

Nous observons divers types de pertinence visualisés sur la figure I-7 par les liens numérotés. Par exemple en 3, la pertinence de la description présentée par rapport à la question, en 6 la pertinence d’un document ou du corpus de documents réponse par rapport à une question, en 5 la pertinence du document par rapport au besoin de l’utilisateur, etc. Nous voyons donc bien qu’il existe plusieurs types de pertinence. Il est donc irréaliste de chercher une définition générique, globale, et précise qui les prendrait tous en compte.

Mizzaro [MIZ97] pose un modèle élaboré à partir de son étude récapitulative des différents aspects de la pertinence. Il recense et classifie l’ensemble de ces liens. Il définit la pertinence comme une relation entre deux entités de deux groupes.

D’un côté on a :

De l’autre :

Les différentes définitions de la pertinence sont représentées par des liens entre les éléments de ces deux ensembles (cf. figure I-8).

message URL FIG008.gif
Figure I-8 : Le modèle de Mizzaro

Ainsi le lien 1 représente la pertinence de l’information présentée à l’utilisateur en fonction de son besoin.

Cependant, ces liens peuvent être dédoublés suivant l’angle sous lequel on observe cette pertinence. En, effet on peut observer la pertinence d’un document pour l’utilisateur selon son besoin en fonction, du sujet qui l’intéresse, de la tâche, c’est à dire l’activité pour laquelle l’utilisateur a besoin d’information, ou du contexte, c’est à dire tout ce qui ne touche pas au sujet ou à la tâche mais qui influence la recherche. Par exemple le fait que le document présenté soit déjà connu ou qu’il existe des contraintes de temps ou d’argent...

Ceci multiplie d’autant les combinaisons possibles. En effet, le lien 1 qui représente la pertinence de l’information par rapport au besoin peut être dédoublé : nous pourrons construire un lien « 1a » représentant la pertinence du contenu de l’information présentée par rapport au sujet exprimé dans le besoin, un lien « 1b » représentant la pertinence de l’information présentée par rapport au besoin pour effectuer une tâche particulière et enfin un lien « 1c » qui peut représenter la pertinence du document par rapport au besoin en fonction du temps de réponse. Mizzaro ne valide pas tous les liens possibles. Si l’on considère son schéma comme un graphe orienté, l’ordre des pertinences présentées est partiel.

L’ensemble des travaux sur la pertinence s’est positionné par rapport à l’un des ces trois axes, le sujet, la tâche ou le contexte de la recherche. Mizzaro distingue deux périodes. De 1959 à 1976 les bases sont posées, le travail est pragmatique et doit être directement utilisable pour des expérimentations. De 1977 à nos jours, la réflexion est plus théorique, les études restent bien réelles mais un travail important est fait sur la définition des concepts comportementaux, terminologiques et de mesure.

Les travaux sur la pertinence ont pour une grande part porté sur l’étude de mesures quantitatives, ces dernières permettant en effet de résoudre en partie le problème de la subjectivité du juge. Dans le chapitre suivant nous en présenterons quelques-unes.

Notes
50.

dans [MIZ97] : COOPER W.S., MARON M.E. - Fondation of probabilistic and utility-theoretic indexing. In Journal of the Association for Computing Machinery - 25(1) - 1978 - pp 67-80.

51.

dans [MIZ97] : WILSON P. - Relevance. In Two kinds of power. - Bekerley : University of California Press. - 1968 - pp 45-54.

52.

Su entend par-là précision

53.

L’efficacité est jugée par la durée et le coût de la recherche en fonction de ce que l’utilisateur trouve.

54.

L’utilité est estimée en fonction de le la qualité des résultats obtenus selon l’argent et le temps dépensé et les efforts physiques et mentaux développés.

55.

La satisfaction représente l’interaction entre l’utilisateur et le système. Est-il bien représenté par sa requête ? A-t-elle été correctement prise en compte ? Est-il familiarisé avec l’emploi du système ? Connaît-il bien le contenu de la base de données ? Est-il globalement satisfait de son action de recherche ? Considère-t-il que le rappel et la précision sont corrects ?

56.

Taylor distingue le besoin explicite d’information et le besoin implicite d’information. Mizzaro considère que le besoin d’information est toujours implicite.