4.1.3. La découverte de connaissances à partir de données

Sur la base de ces fondements théoriques, un champ de recherche s'est constitué, désigné par le terme de "Knowledge Discovery from DataBase" (KDDB). Le KDDB est défini par comme :

‘“The overall process of discovering potentially useful and previously unknown information or knowledge from a database.”’

Pour Fayyad, ce problème consiste à mettre en relation ("mapping") les données de bas niveau avec des données d'une autre forme qui peuvent être plus compactes, plus abstraites, ou plus utiles. Ainsi un système de Knowledge Discovery doit permettre à un utilisateur de mener un processus cyclique d'abstraction et de compréhension des données. Fayyad illustre ce processus par le schéma de la Figure 37.

Figure 37 : Cycle du Knowledge Discovery, (Fayyad 1996)

Le processus de Knowledge Discovery est piloté par l'analyste. Celui-ci sélectionne les données utiles. Il les filtre pour enlever le "bruit". Il les transforme pour pouvoir éventuellement leur appliquer des algorithmes de "data-mining". Finalement il interprète les résultats. Dans cette approche, chaque étape conduit à affiner ou remettre en cause les traitements effectués dans les étapes précédentes.

Cette figure représente le processus de Knowledge Discovery comme un processus cyclique, piloté par l’analyste. Dans ce cycle, la mise en œuvre d'algorithmes de recherche automatique de motifs remarquables (pattern finding, data mining) ne constitue qu'une étape. En effet ces algorithmes ne sont qu'un moyen de trouver des propriétés statistiquement remarquables dans les données, tels que des motifs fréquents. Mais le fait que ces propriétés soient statistiquement remarquables n'implique pas qu'elles soient porteuses de connaissances nouvelles.

Par la mise en œuvre itérative du cycle, la connaissance est finalement construite "dans la tête" de l'analyste, avec l'aide interactive du système. De surcroit, l'expertise d'analyse est progressivement capitalisée dans le système informatique sous la forme d'une amélioration progressive des mécanismes de traitement et de visualisation de données. Ces mécanismes permettent de produire des représentations textuelles, numériques ou graphiques des données. Parallèlement, l'analyste devient capable d'attribuer du sens à ces représentations du fait même qu'il maîtrise les processus qui permettent de les produire.

Dans notre cas, la base de données initiale est constituée par les données collectées lors des expérimentations de conduite. Les connaissances recherchées sont des modèles des processus et états cognitifs mis en œuvre par le conducteur pour réaliser son activité de conduite. Le processus de découverte de connaissances que nous cherchons à mettre en œuvre est un processus d'abstraction de ces données, piloté par l'ergonome en fonction de ses objectifs de recherche et du cadre théorique où il se situe. Les motifs intéressants que nous recherchons dans les données sont des motifs temporels. Anolli, Duncan, Magnusson & Riva les désignent sous le terme général de T-pattern (temporal pattern).