Chapitre I - L’évaluation

I-1 - Qu’est-ce que l’évaluation ?

"Dans sa forme la plus simple, un système de recherche d'information peut être considéré comme une "boite noire" qui accepte des données en entrée et produit des résultats. Dans les faits, c'est un acte beaucoup plus pratique, construit par un utilisateur pour une raison - essayer de satisfaire un besoin en consultant une base de données. Par système de recherche d'information, nous entendons un système qui retrouve des documents ou des références aux documents en opposition à des données. Un système de recherche d'information est utilisé quand il y a trop d'enregistrements dans la base pour rendre possible l'examen de chacun d'eux. Ainsi pourrait-on résumer le problème de la recherche d'information (D.R. SWANSON 1963). Un système d'information agit comme un filtre. Il produit en sortie uniquement une partie de l'information stockée dans la base pour qu’elle puisse être examinée par l'utilisateur. Une des caractéristiques de ce filtrage est d'être faillible, c'est ce qui distingue la recherche de documents de la recherche de données (HEINE). Heine dit que cette caractéristique confère un caractère pragmatique à la théorie de la recherche d'information. La question est alors : comment évaluer la performance d'un système en gardant à l'esprit ce caractère pragmatique ?" [HAR97].⁵

L’évaluation d’un système d’information, telle qu’elle l’a été formulée par Tague-Sutcliffe, doit permettre de répondre à la question : ‘« Est-ce que la quantité d’information fournie est suffisante en fonction des besoins divers des utilisateurs ? »’[TAG95].

Prenons un schéma simple reprenant le processus d’interrogation :

Figure I-1 : Le processus d’interrogation

Les quatre composants à prendre en compte pour l’évaluation sont donc : le corpus de données, l’utilisateur, la réponse, et le système. La question de Tague-Sutcliffe semble simple, sa réponse induit cependant qu’un certain nombre de problématiques inhérentes à l’évaluation ont été résolu.

L’évaluation du corpus de données est simple car nous sommes en présence d’objets ayant une description formelle.

L’étude du système suppose que l’on est à même d’en définir les bornes. Nous verrons que cette question se révèle plus complexe qu’il n’y paraît. De plus, mesurer la qualité du service rendu par le système c’est mesurer son efficacité pour la recherche, à savoir, sa facilité d’utilisation, mais aussi la valeur de l’information contenue dans le document réponse.

Une mesure de la quantité d’information est un point particulier d’une problématique générale de la mesure. Nous avons un problème, général à l’ensemble des sciences humaines, pour mesurer les objets manipulés. En effet, à l’inverse de ceux des sciences expérimentales, ils ne sont pas directement observables. L’information ne pouvant être mesurée directement comme une longueur, devons-nous dès lors considérer qu’elle est fonction d’autres mesures ? Si oui, quelles sont-elles ? Quelle est l’échelle de mesure adéquate ? Sont-ce des valeurs ordinales, des ratios ou des intervalles ? Autant de questions, autant d’expérimentations. La mesure de l’information a été le sujet de bien des discussions depuis les travaux de Shannon. Certains ont considéré l’information comme une unique propriété du document, mesurable à partir du document seul. Nous verrons plus explicitement les méthodes quantitatives utilisées globalement en documentation pour mesurer l’information. Nous présenterons ensuite comment, d’une manière plus précise, les expérimentateurs ont mis au point des mesures quantitatives propres à l’évaluation de la quantité d’information contenue dans un corpus réponse.

D’autres ont considéré l’information comme une interaction entre l’utilisateur et le document. Jumarie⁶ quantifie la valeur de l’information par rapport à une référence. Il distingue référence passive, dans le cas par exemple de la valeur d’une mesure, et référence active, dans le cas d’une personne qui évalue ce qu’il lit par rapport à l’étendue de ses connaissances. Nous voyons qu’il existe un lien très étroit entre quantité d’information et pertinence. Selon Schamber et al [SCH90], la pertinence est fonction de la quantité d’information, mais elle est toujours considérée en fonction d’un utilisateur alors que la quantité d’information ne l’est pas. ‘« La pertinence est un concept dynamique qui dépend du jugement de l’utilisateur sur la proximité entre l’information lue et celle qui est nécessaire ’ ‘». ’La pertinence est un concept mesurable ‘« si elle est approchée de manière conceptuelle et opérationnelle du point de vue de l’utilisateur »’ .

Nous développerons ce problème particulier de la mesure de la pertinence du document proposé.

Or, faire une mesure de la pertinence suppose que l’on soit à même de définir ce qu’est la pertinence. ‘« Nous comprenons intuitivement assez bien ce que signifie la pertinence. C’est un concept « y know », comme l’est l’information, pour laquelle nous avons impérativement besoin d’une définition... /... Assez souvent en communication on invoque ou utilise, d’une manière consciente ou non, cette notion intuitive de pertinence. »’ [Saracevic cité dans SCH90] ‘« D’une manière générale, les chercheurs ont employé les jugements de pertinence comme un critère pour évaluer l’efficacité des systèmes de recherche d’information, en supposant que les utilisateurs qui donnaient leur jugement, entendait tous la même chose dans l’utilisation de ce critère. »⁷ ’ [SCH90] Nous verrons que c’est un concept très controversé, il n’existe pas de paradigme ou de consensus sur ce sujet.

De plus, porter un jugement de pertinence suppose que l’on ait été capable de modéliser l’utilisateur dans ses attentes. Bien souvent le besoin de l’utilisateur ne transparaît qu’au travers de la requête qu’il fait au système, et c’est donc uniquement par rapport à elle qu’il est pris en compte. Cependant, le réduire à ces quelques mots est bien insuffisant pour représenter son besoin. Les systèmes évoluant et se modernisant, ils permettent à l’utilisateur de mieux exprimer son besoin. Prenons l’exemple des systèmes interactifs. L’utilisateur ne cerne plus son besoin uniquement par quelques mots normalisés dans une requête. Il effectue en effet, tout un processus, un cheminement, pour exprimer sa recherche. L’évaluation suppose donc que nous soyons en mesure de reproduire ces besoins, c’est à dire de simuler des requêtes ou des comportements de recherche, complètement contrôlables et maîtrisables. Nous verrons comment des expérimentateurs ont travaillé à cette prise en compte de l’utilisateur.

Nous développerons dans ce chapitre les quatre aspects fondamentaux de l’évaluation :

Comment définir le système de recherche d’information à évaluer ? Où arrêter et quelle précision apporter dans sa description ? (cf. chapitre I-3)
Comment modéliser l’utilisateur, et son besoin ? (cf. chapitre I-4)
Comment prendre en compte l’utilisateur et son jugement de pertinence dans l’évaluation ? (cf. chapitre I-6)
Comment effectuer des mesures en sciences humaines ? Quelles sont les mesures développées dans le cas de la recherche d’information ? (cf. chapitre I-6)

N’oublions pas cependant que notre problématique personnelle est l’évaluation dans la perspective du projet Profil-Doc. Nous n’aborderons donc pas ces sujets de manière exhaustive mais dans cette optique particulière.

Mais avant de voir comment les expérimentateurs se sont attachés à mesurer l’information, nous allons essayer de définir l’information elle-même.

Notes

"In its simplest form, an IR system can be viewed as a "black box" that accepts input and produces output. IR is a practical act, constructed by a user for a reason - to attempt to satisfy a human need by consulting an information store. By an IR system we mean a system that retrieves documents or references to documents, as opposed to data. An IR system is employed when there are so many items in the information store as to make unfeasible the approche of examinig each item individually. This is the information retrieval problem (D.R. SWANSON 1963). The IR system act as a filter, typically producing as output only a small subset of the information store for the user to examine. Fallibility is a caracteristic of the filter; this is what distinguishes document retrieval from data retrieval (HEINE). Heine argues that this caracteristic confers a pragmatic character to IR theory. The question is how the performance of an IR system should be evaluated, keeping in mind its pragmatic character."

Jumarie G - 1990 - Relative information : Theories and applications Springer-Verlag, Berlin

« Intuitively we understand quite well what relevance means. It is a primitive « y know » concept, as is information for which we hardly need a definition .../... If and when any productive contact [in communication] is desired, consciously or not, we involve and use this intuitive notion of relevance » [Saracevic cité par SCH90] « Traditionnaly, reserchers have employed relevance jugements as criteria for evaluating the effectiveness of information retrieval, while assuming a common understanding of the criteria employed by users themselves in making these jugement. »