Introduction

Cadre de nos travaux : l’extraction de connaissances dans les données

Un programme techniquement efficace ne signifie pas qu’il est convivial pour les utilisateurs. Dans le cadre de cette recherche, l’idée est de s’assurer de la meilleure qualité des logiciels de FVD. Le travail abordé est à la croisée de plusieurs disciplines : l’extraction de connaissances dans les données (ECD) en général et plus particulièrement la fouille visuelle de données, l’intelligence artificielle, les interfaces homme machines, l’ergonomie des logiciels et les sciences sociales. Le domaine de l’ECD est né du besoin de découverte de structures (modèles, comportement) dans de masses de plus en plus importantes de données. En effet, des estimations montrent que la quantité de données disponibles à travers le monde s’accroît continuellement [Fayyad et Uthurusamy, 2002]. Ces données peuvent représenter des transactions de cartes de crédit, des appels téléphoniques ou des factures de supermarchés. Concrètement, en terme de chiffres, la page de statistiques du moteur de recherche GOOGLE [Google, 2005] par exemple estime à 250-300 millions le nombre de requêtes par jour pour plus de 8 milliards de pages indexées en mars 2005. En un seul jour, l’agence australienne pour le bien être reçoit sur son site plus de 11 millions de requêtes, le supermarché américain Walmart [Domingos et Hulten, 2001] effectue plus de 20 millions de transactions de vente. Il serait très difficile voire même impossible de traiter cette masse d’information sans appui de méthodes automatiques, c’est le but de l’ECD. L’ECD peut être défini comme le processus non trivial d’extraction à partir de données de connaissances valides, inconnues, potentiellement utiles et compréhensibles [Fayyad et al., 1996]. Plusieurs phases de préparation, d’exploration et de traitement de ces données sont alors nécessaires. Plus précisément, l’ECD procède par plusieurs étapes parmi lesquelles nous pouvons citer la fouille de données (FD), [Kodratoff, 1996] et [Zighed et Rakotomalala, 2003].Les étapes en amont de la FD (figure 1) ont pour objectif de préparer les données, de les pré traiter. Suite à la FD, on obtient un modèle des données qui est évalué afin d’être considéré comme connaissance.

Figure 1 Processus d’extraction de connaissances dans les données

En amont de la fouille de données, on assiste à :

la compréhension du domaine d'application : il s’agit d’expliciter la connaissance a priori et les buts à atteindre,
la création d'un sous-ensemble cible des données (à partir de l'entrepôt) dans lequel appliquer la recherche. Les données se présentent alors sous la forme usuelle en statistique d'un fichier, observations ou unités statistiques en lignes dont chaque champ ou colonne contient les valeurs prises par les variables considérées,
le nettoyage des données : il s’agit d’éliminer les erreurs, les données manquantes ou de traiter les valeurs atypiques,
la transformation des données : cette opération consiste soit en une « normalisation », une linéarisation ou une compression.
Après ces différentes étapes, la fouille de données proprement dite est opérée et comporte :
l’explicitation de l'objectif et de la stratégie d'analyse : exploration, classification, discrimination, segmentation, recherche de singularités, modélisation, prévision,...
le choix des méthodes, des algorithmes en privilégiant interprétabilité ou prédictibilité. Mise en oeuvre des outils informatiques appropriés pour aboutir à une modélisation.

En aval de la fouille de données, les opérations suivantes sont réalisées :

les tests : sur la base de critères à préciser (qualité d'ajustement, de prévision, simplicité, visualisations graphiques...),
la prévision,
la diffusion de l'information pour une prise de décision.

La FD ainsi décrite peut se faire de façon automatique ou alors de façon interactive et itérative. Le traitement automatique consiste en une « boîte noire » recevant en entrée des données prétraitées et fournissant en sortie des modèles ou le comportement des données pour les phases de post traitement.

Le traitement interactif et itératif ou fouille visuelle de données (FVD) implique beaucoup plus l’utilisateur qui participe activement à la construction du modèle de données. A cet effet, ce dernier utilise ses capacités humaines en reconnaissance de formes et le cas échéant, les connaissances du domaine des données.

Mais, la majorité des travaux de recherche en FD en général est consacrée au développement des modèles prédictifs des données [Kohavi, 2000] et à l’évaluation de la pertinence de ces modèles, donc au point de vue technique des outils. Nos travaux se situent dans le cadre plus spécifique de la FVD pour la classification supervisée des données. D’une part, prédire un modèle ou le comportement des données et comprendre ces prédictions peuvent ne pas aller de pair [Saporta, 2005]. Les outils de FVD en dépit de leur nécessité n’ont d’utilité que si les utilisateurs finaux acceptent de s’en servir. Il est donc primordial d’assurer leur performance et surtout leur convivialité. C’est la contribution principale apportée par ce travail qui s’appuie autant que possible sur une combinaison de stratégies et d’expertises.