I-4-1 - Les questions

La question est la verbalisation d’un besoin d’information. C’est le point de départ pour la recherche dans la base, le contrôle du processus de recherche et la détermination de la valeur de la réponse. L’obtention de bonnes questions se révèle être une tâche plus que difficile mais capitale. C’est l’un des problèmes majeurs lors de la mise en place de tests d’évaluation [TAG92].

Une source usuelle et facilement disponible est de prendre directement un utilisateur en situation c’est à dire avec un réel besoin. Cependant, outre la difficulté d’avoir un échantillon assez grand d’utilisateurs, beaucoup d’expérimentateurs les trouvent difficilement contrôlables et pas suffisamment impliqués dans le processus d’évaluation (à moins d’être rétribués). En effet, ils partent souvent en ayant très superficiellement, voire pas du tout, rempli les jugements de pertinences sur les réponses, et ne suivent pas forcement le protocole d’évaluation. Pour ces raisons on emploie souvent des questions artificielles ou/et on utilise des juges extérieurs pour estimer la pertinence de la réponse. C’est le principe de la collection test.

Une technique usuelle et automatique pour construire ces collections est d’utiliser le titre des documents en tant que question. La pertinence de la réponse dépendra de l’ensemble de références auquel elle renvoie ou d’un collège de juges spécialistes du domaine.

La collection faite par Cranfield, « Cranfield 2 data », ayant un corpus de 1400 documents et 300 questions, a été utilisée d’une manière intensive dans un grand nombre d’expérimentations. Spark Jones et Rijsbergen [SPA76] avait projeté de faire une collection test idéale gigantesque, malheureusement ce projet d’envergure ne s’est jamais fait. Un autre projet, TREC « Text Retrieval Conference », basé sur le même principe a démarré en 1991. Une collection test a été créée par un collège de spécialistes. Elle était particulièrement intéressante car c’était la plus grande jusqu’alors existante. Un grand nombre de laboratoires ou industries ont testé leur système avec cette collection. L’ensemble des résultats a été normalisé pour pouvoir être présenté et comparé à la conférence TREC.

Une des critiques de ce projet concerne la méthodologie d’utilisation de TREC : elle se base principalement sur l’évaluation faite en 1970 et ne prend pas en compte l’évolution des systèmes actuels (par exemple les systèmes interactifs). Il lui est reproché, en outre, de ne pas rendre compte de la réalité. Les questions et les réponses sont, en effet, loin des préoccupations de l’utilisateur. De la même manière, la valeur de pertinence de la réponse est donnée arbitrairement et ne dépend pas du point de vue individuel d’utilisateur. Enfin, ces tests sont faits à partir d’une collection particulière ou d’un échantillon de collections figé, considéré comme non représentatif de la diversité que l’on trouve dans la réalité. Des critiques ont donc été émises quant à l’extension des résultats de ces tests à des systèmes réels.

Un autre moyen pour modéliser l’utilisateur est d’utiliser les fichiers enregistrés des interrogations faites sur un système ou un service. Ainsi, il est possible d’extraire les requêtes et ainsi de constituer un ensemble de questions qui sont plus « naturelles » car elles correspondent à un besoin et une expression réelle. Le problème posé par cette technique est que l’on n’aura jamais de réel jugement de pertinence, celui-ci ne peut être donné que par l’utilisateur en fonction de son besoin.

Nous voyons donc que l’obtention du corpus de questions renvoie vers deux types d’expérimentations : des expérimentations en laboratoire, avec des questions et des jugements de pertinence obtenus automatiquement ou par un expérimentateur, et des expérimentations opérationnelles dans un réel contexte de recherche d’information, impliquant donc des utilisateurs de bonne volonté et rigoureux.