V-3 - Evaluation du système Profil-Doc

Au début du chapitre IV nous avons présenté la problématique générale posée par l’évaluation du système Profil-Doc. La nouveauté que propose le système Profil-Doc est de découper les documents en unités documentaires, ces dernières sont alors caractérisées par des propriétés spécifiques : aux documents (description de l’environnement de production et de diffusion) et aux unités documentaires (type, forme discursive et style de l’unité documentaire). La première des composantes du système à analyser est donc cette forme de description des données. La seconde nouveauté que propose Profil-Doc est de permettre, au travers de ces propriétés, d’opérer un filtrage de l’information selon l’usage présupposé qu’en fera l’utilisateur. Pour mettre en évidence cet usage, l’utilisateur spécifie son profil. La seconde composante du système à analyser est donc la recherche d’information, par rapport à cette fonctionnalité de filtrage selon l’usage.

L’évaluation de la description des données doit permettre de valider les hypothèses de base de profil doc. Le principe de filtrage de Profil-Doc n’étant en particulier valide qu’a la première condition où les propriétés sont indépendantes les unes des autres.

L’évaluation de la recherche d’information n’a pas été menée sous l’angle de la « relevance » de la réponse, comme c’est le cas pour les évaluations classiques. En effet, un réel protocole d’évaluation supposerait dans un premier temps de prendre en compte une quantité de stratégie de recherche beaucoup plus vaste. Il devrait se composer d’une part d’un échantillon représentatif de tous les profils possibles, et d’autre part prendre en compte toutes les combinaisons de critères permettant de construire les stratégies documentaires. Dans un second temps, un protocole d’évaluation suppose d’avoir un référentiel de pertinence duquel le système se reproche ou s’éloigne. La proximité que nous calculons ici donne une indication sur la puissance de chacun des filtrages proposés. Nous n’avons et donc ne donnons aucune information sur la pertinence d’un filtrage plutôt qu’un autre, par rapport à un utilisateur donné. Nous développerons une discussion sur le protocole employé dans la conclusion.

Le protocole présenté permet, en considérant le facteur d’impact de discuter la méthode effective employée pour effectuer le filtrage selon l’usage, à savoir l’utilisation d’une matrice d’association, d’un vecteur résultant et des fonctions d’aiguillage. Nous verrons que le processus actuel peut être optimisé.

Dans le chapitre V-1 nous avons procédé à une série d’analyses statistiques utilisées pour discuter la validité du découpage et de la caractérisation des unités (sachant que ces opérations sont manuelles), ainsi que la validité du filtrage selon l’usage, filtrage présupposant qu’il n’existe pas de dépendance entre les propriétés descriptives des parties de discours.

Les résultats de ces analyses sont présentés dans le chapitre IV-1-4. Ils montrent qu’il existe effectivement des dépendances entre les propriétés de description des UD : la Forme discursive et Type d’UD d’une part, et Style et Type d’UD d’autre part. Précisons cependant que les dépendances observées ne sont pas globales à toutes les modalités de chaque propriété mais seulement à quelque unes d’entre elles. Or, les dépendances entre modalités correspondent précisément à des régularités de rédaction qui sont facilement explicables si l’on considère d’une part la fonction informationnelle des parties de discours (observée par certaines dépendances entre les modalités des propriétés Forme discursive et Type d’UD) et d’autre part la nature de l’information présentée (observée par la dépendance entre certaines modalités des propriétés Style et Type d’UD). L’AFC nous a permis de voir émerger les trois fonctions informationnelles principales d’un discours scientifique : la présentation générale du sujet, la description de l’étude réalisée, et l’argumentation de l’auteur. Cette dernière sert à valider le travail de recherche par l’acception du lecteur.

La base de données analysée ne présente pas d’autres dépendances que celles que l’on peut observer dans toute production d’écrits scientifiques et techniques. Nous pouvons donc en conclure que le traitement manuel de caractérisation des parties de discours n’introduit pas de biais. De plus, si nous considérons que la caractérisation des unités dans le système se fait dans un but d’usage pour le lecteur, nous voyons que nous ne sommes plus en contradiction avec l’hypothèse de Profil-Doc. Il existe en effet des dépendances entre les propriétés qui s’expliquent parfaitement, comme nous l’avons fait ci-dessus, dans un univers de production d’information. Or c’est l’observation des habitudes de lecture, et non pas celles d’écriture, qui permet de spécifier les critères de filtrage. Si la production et la diffusion sont liées, il n’est pas évident que la manière d’écrire influe directement et d’une manière représentative sur la manière de lire. De plus, les dépendances observées portent sur les trois propriétés propres à l’unité documentaire, or nous filtrons l’information aussi sur les 11 propriétés propres au document. Dans ces conditions, l’éventuelle influence des habitudes de production d’information sont « noyées » parmi d’autres critères de filtrage.

Dans le chapitre V-2 nous présentons les résultats de l’analyse du processus de recherche de l’information selon l’usage. Une des questions posées dans la problématique d’évaluation concerne la validité du processus effectif de filtrage basé sur une matrice d’association, un vecteur résultant et des fonctions d’aiguillage. La validité a été discutée du point de vue de l’impact d’un couple de facteur particulier pour effectuer le filtrage (c’est à dire le choix d’une méthode de calcul de vecteur résultant et d’une fonction d’aiguillage). Les résultats de cette analyse sont présentés dans le chapitre V-2-2. Nous avons remarqué que le filtrage opéré était bel et bien différent en fonction des profils d’utilisateur et ce, quel que soit le calcul du vecteur résultant (paragraphe V-2-2-a) ou la fonction d’aiguillage employé (paragraphe V-2-2-b). Nous avons vu qu’aucun profil particulier n’était privilégié selon les facteurs de filtrage employés. Tous les modes de calculs de vecteurs résultant et toutes les fonctions d’aiguillages ont donc bien une action distincte. Ces deux méthodes de filtrage ont donc des facteurs d’impacts certains.