La définition des méthodes de comparaison est la deuxième phase d'un processus d'évaluation.

Ces méthodes doivent donner des indications quantitatives sur les traitements effectués par le SRI. Ainsi elles sont des moyens pour rendre un jugement qualitatif sur le système. Cette phase de mesure et d’analyse est l’essence même des processus d’évaluation. Elle doit permettre, en fonction des caractéristiques modélisées ou récoltées, de définir les mesures ou moyens qui permettrons d’expliquer et d’évaluer les performances du système. Les paramètres analysés sont sélectionnés dans la première phase en fonction des objectifs de l’étude. En fonction des valeurs de ces paramètres, un ou plusieurs indicateurs doivent permettre de calculer la « qualité » d’un système. L’indicateur le plus couramment utilisé est le jugement de pertinence. La pertinence est alors à prendre dans son sens de « relevance ». Dans notre cas c’est la « pertinence » que nous testons avec la mesure de proximité ordonnée et le référentiel construit 129. Notre indicateur est l’impact du filtrage. Plus un ensemble est proche de notre référentiel et moins l’impact du filtrage n’a été marquant. La qualité de l’indicateur est fortement liée aux propriétés de la mesure de proximité définie et construite. Nous allons la présenter plus précisément. La démarche cohérente pour construire les mesures de proximité est d’abord de formaliser dans le cadre des SIC les objets de la même manière qu’ils le sont en mathématique. Le travail de Tague [TAG95] présente un ensemble de formalismes, calqué sur la théorie de la mesure, et appliqué ou adapté à la mesure de l'information. C’est exactement dans ce courant que nous nous positionnons. Dans le chapitre II de ce travail nous avons proposé un formalisme pour définir la mesure de proximité. Ce formalisme permet de prendre en compte un critère fondamental dans la constitution d’un jugement de pertinence de la réponse : l’ordre de présentation des éléments. Pour mettre en évidence la manière dont nous avons pris en compte les rangs de présentation nous allons présenter en parallèle les définitions de la mesure de proximité, et de la mesure de proximité ordonnée.

Si A et B sont des éléments de R q (l’ensemble des réponses possibles à la question q), les indices de proximité utilisés en documentation (nous les notons D), comme l’indice de Jaccard ou le cosinus, vérifient généralement cinq propriétés :

message URL FIG271.gif

Les SRI actuels proposent d’ordonner les documents réponses, dans des listes ou des classes, suivant une valeur de pertinence calculée par rapport à la requête de l’utilisateur. Un mauvais ordre de présentation provoque un « retard » de lecture qui modifient l’évaluation de la pertinence globale d’une réponse. Or il s’avère que les indicateurs de comparaison usuellement employés sont inaptes à le prendre en compte. En effet, le coefficient de Jaccard, le coefficient de Dice, le cosinus, le rappel et la précision130 ne comparent que des intersections ou unions entre plusieurs sous-ensembles. Il en résulte que D(A,B) sera absolument identique que A et B soient ordonnés ou non. Or, le calcul de la proximité entre deux chaînes est plus représentatif s’il prend en compte le rang de la classe dans laquelle se trouvent les documents.

Soit C q l’ensemble des classes possibles pour la question q.

Si les éléments C de R q sont tel que C = {C i}i=1..m C i  Cq ,

nous définissons la mesure de proximité ordonnée entre deux éléments de l’ensemble R q , une mesure notée P qui vérifie les six propriétés suivantes :

message URL FIG273.gif

Le théorème de la mesure de proximité ordonné permet 131 , à partir de toute mesure de proximité, de construire une mesure de proximité ordonnée respectant la définition précédente. Ce théorème s’applique aussi dans le cas de mesures de proximité référentielles comme le rappel et la précision.

A partir de ce théorème nous proposons des modèles génériques de mesures de Jaccard ordonnées, de mesures de Rappel ordonnées et de mesures de Précision ordonnées. Il est possible de construire plusieurs mesures à partir de ces modèles, nous avons présenté une expérimentation menée avec une mesure de Jaccard ordonné particulière. Cette expérimentation avait pour but de mettre en évidence l’erreur de mesure opérée lorsque l’on calcule des proximités entre ensembles ordonnés avec l’indice de Jaccard classique J m0 et la mesure de Jaccard ordonnée P δ. Cette expérimentation a été menée sur 652 questions posées dans 24 contextes de filtrage différents, c’est à dire produisant 24 ordres de présentation différents. L’erreur de mesure est observé par l’écart visualisé entre les courbes représentant les calculs de proximités obtenus à partir de P δ et J m0.

Les résultats montrent que l’utilisation d’une mesure de proximité ordonnée se révèle particulièrement utile et permet d’obtenir des résultats plus précis.

Ce protocole permet de dégager deux conclusions sur les hypothèses de recherche de Profil-Doc.

La première est que la caractérisation des parties de documents en unités documentaire est valide. Les propriétés choisies sont indépendantes, dans leurs modalités, les unes des autres, les rares dépendances observées sont structurelles à la production d’information et ne sont pas à imputer au processus de caractérisation tel qu’il est définit dans Profil Doc.

La deuxième est que le filtrage de l’information selon le profil de l’utilisateur est effectif. Aucun profil particulier n’est privilégié. Le filtrage selon l’usage produit des corpus personnalisés, distincts selon le profil de l’utilisateur. Ces deux méthodes de filtrage ont donc des facteurs d’impacts certains. L’analyse des 24 stratégies à permis d’en proposer un ordonnancement selon l’impact du filtrage.

La première réflexion globale que nous dégageons de ce travail concerne l’ordonnancement des filtrages selon l’impact que nous venons juste de présenter. S’il est un moyen de personnaliser et donc d’optimiser le filtrage selon le profil de l’utilisateur, il ne reste cependant qu’un pis aller, un traitement supplémentaire à rajouter au processus déjà très itératif de filtrage. En effet, la décomposition du filtrage selon un vecteur résultant et des fonctions d’aiguillages résulte de la modélisation des usages observés par Ben Abdallah [BEN97] sous la forme d’une matrice disjonctive, la matrice d’association. Ce type de représentation est fixe et se situe dans un espace simple où l’on modélise des couples d’association. Le filtrage selon l’usage est un processus complexe, c’est un ensemble de propriété de description du profil qui induit un usage, l’usage alors défini correspond à un ensemble de propriétés des unités documentaires. L’utilisation d’une matrice d’association a pour conséquence de réduire la connaissance observée des usages. Les processus itératifs de vecteurs résultant, choix d’une fonction d’aiguillage (éventuellement suivant l’ordonnacement proposé) et application de cette fonction n’ont pour but que de recréer l’information perdue par cette formalisation sous forme de couples.

En accord avec les conclusions proposées par Belkin et Croft [BEL92] nous pensons que les réflexions, modèles et méthodes utilisées en recherche d’information par le contenu peuvent être appliquées pour le filtrage de l’information quand il est effectué sur d’autres critères que le contenus. L’utilisation de méthodes vectorielles, probabilistes ou booléennes pourrait être un moyen de représenter la complexité de l’usage et de sélectionner le sous corpus personnalisé en fonction du profil.

La seconde réflexion qui découle de ce travail concerne la constitution de protocoles d’évaluations. Nous avons pu remarquer de grandes distinctions dans les approches expérimentales, distinctions liés aux divergences dans la définition des concepts pris en compte ; définition du concept de système, d’utilisateur et de pertinence. Les argumentations en faveur de l’un ou l’autre des protocoles semblent épuisées. La cause est lié au fait que les protocoles proposés étaient souvent analysés et comparés qu’aux travers des résultats expérimentaux. L’exemple le plus marquant de ce type d’analyse est l’étude faite par Su [SU91]. Les divergences pourraient être mieux analysées s’il y avait remise en cause des fondements théoriques : la modélisation des utilisateurs, la modélisation du jugement de pertinence, la mise en place de nouvelles mesures [ELL96]. Les collections test, les mesures de rappel et de précision, pourtant décriées, restent la seule alternative pour des évaluations à grande échelle. Comme le souligne Tague [TAG96], les analyses et évaluations proposées dans d’autres sciences, comme en informatique, sont à la fois théoriques et expérimentales. Si elles se restreignent encore à des études expérimentales en évaluation de recherche d’information c’est que les concepts ne sont pas aussi clairement définis. La prise de conscience est effectuée. Si l’on observe les travaux publiés sur l’évaluation, nous voyons apparaître bon nombre d’études récapitulatives, de typologie, de caractérisation des protocoles d’évaluation ; travaux qui n’étaient que pauvrement présents il n’y a même pas trois ans. La recherche d’information semble arriver à maturité, après une trentaine d’années d’expérimentation. La contribution proposée dans ce travail sur la mesure ordonnée va dans ce sens. Bon nombre de réflexions émergent concernant la prise en compte de cet ordre de présentation ou la faiblesse théorique sous jacente aux définitions des mesures132. Nous avons pu voir que le théorème proposé pouvait s’appliquer dans bon nombre de cas, et pour plusieurs types de mesures, en particulier les mesures référentielles telles que le rappel et la précision. Nous avons souligné des perspectives de recherche ouvertes pour la généralisation de ce théorème, en particulier la restriction ou suppression de l’hypothèse 1, et la généralisation de la fonction de retard δ mo à une fonction non forcement affine. D’autres perspectives sont ouvertes quant à la typologie et formalisation des mesures.

La réalisation d’un protocole s’appuyant sur des mesures endogènes a le grand avantage d’être exportable et réutilisable dans des contextes totalement différents. Par exemple, dans l’attente de trouver d’autres méthodes de construction d’ensemble de référence, nous aimerions tester ce type de mesures en parallèles avec les mesures usuellement employées dans les protocoles d’évaluation actuels comme par exemple TREC. Nous pourrions ainsi effectuer l’étude comparative des mesures non ordonnées et leur pendant ordonné, d’une manière identique à l’étude menée sur le coefficient de Jaccard. De plus, le test de ces mesures dans le cadre de ces protocoles permettrait d’affiner les résultats présentés. En effet, la qualité de certains systèmes, comme SPIRIT, tiens à l’originalité de l’analyse qui permet d’extraire et d’ordonner les documents réponses. Il est dommage que des telles caractéristiques passent inaperçues dans des études comparatives de systèmes.

Un autre contexte dans lequel ce protocole peut être utilisé est l’évaluation des moteurs de recherche Web. Dans ce cas, la constitution d’ensembles références de type collections test se révèle irréalisable. Les évaluations des moteurs de recherche sont souvent fondées sur le nombre de liens indexés ou le volume de documents présentés. Ces larges volumes produisant un bruit considérable, les réponses proposées sont ordonnées. Les mesures de proximités, et les méthodes d’analyses globales présentées ici seraient donc utiles. Ces mesures étant endogènes, elles testeraient le module effectif de recherche, d’appariement question-document ainsi que l’ordre de présentation des réponses d’un moteur par rapport à un autre et non pas la « pertinence » d’un moteur.

Notes
129.

Correspondant à une interrogation sans filtrage.

130.

Le rappel et la précision ne sont pas des mesures symétriques, elles ne vérifient donc pas la propriété 2. Une définition et un théorème particulier sont proposés pour ces mesures référentielles.

131.

Sous réserve de validation de l’hypothèse 1 présentée au chapitre II

132.

Parmi les travaux les plus récents nous aimerions citer les travaux de Borlung et Ingwersen [BOR98, BOR97] sur la pertinence et les travaux de Hegge et Rousseau d’une manière plus globale sur la mesure.