I-3-4 - Des « boites noires » vers des tests diagnostic interne

Le test de Cranfield décrit précédemment est typiquement un test de type « boite noire ». Ces expérimentations permettent de faire un choix entre deux systèmes ou entre deux stratégies. Cependant, pour faire correctement une expérimentation de ce type il faut avoir clairement défini les limites du système, à savoir quelles sont les entrées et les sorties, tout en sachant que celles-ci doivent être observables et mesurables. C’est le problème majeur que posent ces expérimentations quand on doit prendre en compte l’utilisateur, et en particulier comme nous l’avons dit plus haut l’état de son savoir.

Les tests de type diagnostic interne peuvent être menés de deux manières. Nous pouvons considérer tout d’abord que nous procédons à plusieurs tests de type boite noire sur le même système, en modifiant certains modules ou paramètres de recherche. La comparaison des différents résultats nous permet d’isoler l’influence relative de chaque paramètre. Le deuxième protocole envisagé est qualitatif. Ce sont les utilisateurs qui vont donner leur avis sur telle ou telle fonctionnalité du système en vue de l’améliorer. Un exemple du couplage de ces deux méthodes est le test classique fait avec Medlars [LAN68]. Lancaster a pris en compte des calculs sur le rappel et la précision, mais aussi des jugements d’utilisateurs. Ceux-ci avaient pour buts d’identifier et de catégoriser les dysfonctionnements internes du système, comme le type de langage d’indexation ou la stratégie de recherche, et ainsi d’améliorer la performance du système en modifiant les mécanismes internes. Ce test est couplé avec des mesures quantitatives, pour les calculs de rappel et précision. Des expériences répétées sur des collections test, en permutant les variables mise en évidence par les utilisateurs, ont permis de faire les diagnostics.

Le projet Cirt [ROB90] devait faire une comparaison, dans un environnement opérationnel, de la recherche par les pondérations par rapport à la recherche booléenne. L’idée d’expérimentation était de fournir aux utilisateurs un service de recherche utilisant de façon aléatoire la recherche booléenne et la recherche par les pondérations. Un intermédiaire était chargé de faire une analyse cognitive de l’interaction de l’utilisateur avec le système et questionnait ce dernier sur la pertinence des réponses présentées. L’évaluation a été basée sur les critères traditionnels de pertinence et sur des critères qualitatifs donnés par l’utilisateur et l’intermédiaire (satisfaction générale, effort développé, temps passé, difficultés perçues,...). Devant la complexité de la mise en oeuvre, le projet s’est transformé en une expérimentation plus simple de type boite noire. Le problème, dans ce cas là, a été d’obtenir un nombre suffisamment grand de requête/utilisateurs pour construire l’échantillon.

Le projet d’évaluation OPAC [HAN90], [HAN91], est un exemple à grande échelle de ce que peut donner un test « diagnostic » avec questionnement direct des utilisateurs. Il concerne le comportement de recherche des utilisateurs d’un catalogue de bibliothèque et quels rayons sont accédés en fonction de la réponse donnée.

Le système analysé prenait en compte le mécanisme opérationnel de recherche, certains aspects comportementaux des utilisateurs, ainsi que l’environnement de la bibliothèque. L’information en entrée était l’utilisateur avec son besoin d’information, et en sortie le livre trouvé et les processus intermédiaires d’obtention. Pour décrire son comportement, l’utilisateur devait spécifier les rayons visités après sa recherche en ligne. Ces informations étaient mises en parallèle avec les fichiers de connexion. Les données quantitatives ont permis de faire une carte répertoriant les différents exemples de recherche et les stratégies utilisées. La grande qualité de ce test a été de combiner les données qualitatives à propos du déroulement de la recherche avec l’enregistrement des sessions de connexion. Comment les utilisateurs articulaient-ils leur besoin d’information ? Comment formulaient-ils et reformulaient-ils leur recherche ? Et finalement comment s’effectuait le choix des livres en rayon suivant ces étapes ? Ces analyses ont mis en lumière l’interactivité de la tâche de recherche. Le problème a été de déterminer dans quelle mesure le changement comportemental venait : d’une influence positive directe du système, d’une meilleure adaptation de l’utilisateur à celui-ci ou d’une modification de l’état des connaissances. Si les données qualitatives exploratoires fournissent beaucoup plus d’information que les données quantitatives, il y a des limites à leur extraction lors d’une recherche. En effet, dans cet exemple, les utilisateurs ont répondu tout au long de leur connexion à des questions complémentaires. Reste à savoir dans quelle mesure et comment l’interruption de ces questions a perturbé la recherche. Une solution prometteuse consisterait, soit à redérouler toute la session de recherche à l’utilisateur, lorsqu’il a terminé, et lui poser alors les questions, soit, d’une manière plus souple, lui demander de formuler des jugements rétroactifs à des moments bien déterminés de sa recherche. Il y aurait alors certitude que l’enregistrement de la recherche ai vraiment été fait en temps réel. Les temps de pause et de passage rapide pourraient alors être exploités.

Les exemples présentés montrent qu’il existe deux familles de tests d’évaluations :