3.4.2. L'analyse exploratoire de données séquentielles

Sanderson & Fisher ont proposé de désigner sous le terme Exploratory Sequential Data Analysis (ESDA), l'activité de recherche qui consiste à analyser les données séquentielles d'interaction. Leur objectif initial était de mieux comprendre comment l'utilisateur d'un système informatique réalise son activité. Elles en donnent la définition suivante :

‘“ESDA is any empirical undertaking seeking to analyze systems, environmental, and/or behavioral data (usually recorded) in which the sequential integrity of events has been preserved. The analysis of such data (a) represents a quest for their meaning in relation to some research or design question, (b) is guided methodologically by one or more traditions of practice, and (c) is approached (at least at the outset) in an exploratory mode".”’

L'ESDA s'appuie sur les champs de recherche voisins de l'analyse de protocole , et l'analyse de données qualitative pour se spécialiser dans l'analyse des données séquentielles d'interaction, qu'elles soient issues d'un traçage automatique, d'un encodage manuel ou d'une verbalisation de l'opérateur. Le processus d’ESDA est présenté à la Figure 34.

Figure 34 : The generic ESDA process, (Sanderson 1994)

Ce processus consiste, à partir d'une question de recherche ou de conception, à recueillir des données d'observation de l'activité, à transformer ces données dans une démarche itérative pour progressivement construire des énoncés qui répondent à la question initiale.

Sanderson insiste sur le fait que ce processus d'analyse est extrêmement coûteux en temps. Elle définit le rapport "temps d'analyse / temps de l'enregistrement", et indique qu'il est toujours très élevé. Dans le cas d'analyse de séquences vidéo, ce ratio peut être compris entre 3 pour 1 et 5 pour 1. Dans le cas d'études dont l'objectif est de modéliser les processus cognitifs du sujet ce ratio peut être de l'ordre de 500 pour 1 à 5000 pour 1 . Pour réduire ce ratio, beaucoup de chercheurs ont tenté de développer des outils informatiques. Sanderson note que cet objectif peut constituer un sujet de recherche par lui-même, car les avancées conceptuelles et méthodologiques en ergonomie sont liées à l'existence de tels outils. Dans ce but, elle propose un état des lieux de ces techniques. D'une manière générale ces techniques couvrent une large plage de période temporelle (Figure 35) qui peut aller de quelques dizaines de millisecondes à quelques années. Elle insiste sur la nécessité de choisir a priori l'échelle de temps dans laquelle on se situe. Etant intéressés par l'étude des processus cognitifs tactiques, nous nous focalisons pour notre part sur les plages de l'ordre de 100ms à 10s.

Figure 35 : Spectre des durées pouvant faire l'objet de l'ESDA, (Sanderson 1994)

En pratique, Sanderson note que les chercheurs adoptent souvent une méthode d'analyse progressive. Ils passent beaucoup de temps pour analyser en détail et exhaustivement les premiers échantillons, puis, une fois que l'activité est mieux comprise, ils se focalisent uniquement sur les parties de l'activité qui les intéressent. Cela montre selon elle une démarche exploratoire ou les questions d'intérêt sont construites au fur et à mesure de l'analyse.

Cette démarche Exploratoire est inspirée de ce que Tukey a nommé "Exploratory Data Analysis" (EDA) par opposition à une "Confirmatory Data Analysis". L'EDA a pour but d'aider les chercheurs à formuler des hypothèses à propos de ce qui pourrait expliquer un ensemble de données, plutôt que de tester des hypothèses préalables. Elle repose in finesur la visualisation des données par le chercheur qui, selon Tukey, "look at data to see what it seems to say".

Le chercheur essaie de trouver des "patterns" dans les données et de les décrire avec des méthodes simples d'agrégation. Comme le soulignent Ericsson & Simon , cette agrégation va dépendre des objectifs poursuivis. Un codage de bas niveau aura l'avantage de retenir la plus grande partie de la sémantique de l'activité. C'est parfois ce que l’on cherche, par exemple pour comparer la trace avec une simulation informatique détaillée. Si le but est de tester une théorie plus globale, par exemple tester les points communs dans les comportements d’un groupe de sujets, alors il peut être désirable d’encoder le comportement à un niveau plus agrégé. Cela peut prendre un certain nombre d'itérations puisque chaque tentative d'agrégation fait apparaître les données sous un nouvel angle. Cette réexpression et transformation des données est essentielle, car elle aide l'analyste à voir de nouveaux motifs ("patterns"). Elle demande une démarche sceptique où le chercheur est toujours en train de tester la résistance des motifs trouvés. Chaque agrégation est une sorte de micro-hypothèse qui doit être confirmée par les données.

Sanderson identifie huit opérations élémentaires sur les données séquentielles qui peuvent être vues comme des primitives élémentaires de transformation : Chunking, commenting, coding, connecting, comparing, constraining, converting, computing (Figure 36).

Figure 36 : The eight ESDA operations, (Sanderson 1994)

Par ailleurs, Sanderson rappelle que l'analyse est toujours imprégnée du cadre conceptuel et pratique dans laquelle elle s'opère. Elle identifie trois grandes traditions : la tradition comportementaliste, la tradition cognitive et la tradition sociale. La tradition comportementaliste vise à produire des descriptions des comportements sans chercher à les expliquer par des états internes du sujet, elle s'intéresse principalement à des comportements aisément reproductibles en laboratoire. La tradition cognitive vise à expliquer l'activité par des traitements d'information effectués par le sujet. A ce titre, elle vise souvent à inférer des structures de connaissances manipulées par le sujet, et les règles de manipulation de ces connaissances. Cette tradition peut parfois chercher à comparer les traces produites par les modèles avec les traces issues de l'activité humaine. La tradition sociologique, quant à elle, tend à accorder plus de place à la subjectivité de l'analyste lui-même, en soulignant que son analyse est elle-même influencée par le contexte culturel dans lequel il évolue. Parallèlement, elle laisse d'avantage de place pour l'implication des sujets eux-mêmes dans le processus d'analyse. Elle s'intéresse principalement à des activités sociales et vise à en fournir des explications consensuelles.

Notre travail se situe par nature dans la tradition cognitive, bien que notre approche constructiviste rejoigne certains aspects de la tradition sociologique.

Enfin, Sanderson liste les problèmes habituellement rencontrés en ESDA, dont les principaux sont à nos yeux :

  • Connaissance insuffisante du domaine par l'analyste : si l'analyste ne connaît pas suffisamment le domaine d'activité qu'il étudie, il risque de ne pas être capable d'interpréter les comportements, ni même de déterminer quels comportements observer. Elle insiste sur la nécessite d'une étape initiale d'apprentissage pendant laquelle l'analyste apprend à comprendre son domaine d'étude.
  • Connaissances des techniques d'ESDA insuffisantes : en fonction des questions de recherche qu'il se pose, l'analyste doit être en mesure de choisir des techniques d'ESDA appropriées, et apprendre à les mettre en œuvre.
  • Manque de temps pour l'analyse : trop souvent les chercheurs manquent de temps pour mener à terme leur analyse.
  • Trop grande quantité de données : le chercheur risque de se perdre dans un volume de données trop important.
  • Insuffisance des possibilités de traitement automatiques : par exemple si les données sont trop bruitées ou si les événements intéressants surviennent trop rarement.
  • Données trop pauvres : le processus d'ESDA ne pourra pas mener à des résultats intéressants si les informations significatives pour expliquer l'activité ont échappé au processus de collecte de données.

Le cadre scientifique de l'ESDA semble bien introduire notre problématique méthodologique. Il exprime sans conteste les questions pratiques auxquelles nous sommes confrontés pour l'exploitation de nos traces d'interaction.