Chapitre 6 : Support au prétraitement des données en FVD

6.1 Introduction

Nous nous intéressons au problème de prétraitement de grands ensembles de données pour la classification supervisée. Il ressort de l’état de l’art des méthodes de visualisation de données et du diagnostic des systèmes de fouille visuelle de données pour la classification supervisée [Fangseu Badjio et Poulet, 2005b] qu’il existe une limite quant à la quantité de données susceptible d’être représentée en une seule fois sur un écran. Pourtant, les progrès scientifiques et techniques permettent aux organisations de stocker des masses de plus en plus importantes de données et d’informations. Il arrive que l’ensemble de données à traiter avec les outils de FVD dépasse la limite tolérée par ces outils, il s’avère alors impossible ou pénible de procéder aux tâches interactives de fouille. En général, les données assez volumineuses comportent des informations bruitées, non significatives, redondantes, etc. Notre but est de réduire les informations contenues dans les ensembles de données volumineux aux informations les plus significatives.

Un ensemble de données est constitué d’attributs et d’observations. Réduire l’information contenue dans l’ensemble de données peut consister à agréger le nombre d’observations et extraire un sous-ensemble d’attributs pertinents. Avec un nombre élevé d’attributs et d’observations, la FVD nécessite une plus grande charge de travail de la part de l’utilisateur. La méthode décrite dans ce chapitre est très importante dans la mesure où elle permet de réduire la charge cognitive des utilisateurs et il s’agit d’un outil d’aide à la décision nécessaire à plus d’une catégorie d’utilisateurs potentiels d’environnements de FVD de données comme nous le verrons. De plus, elle permet de procéder à la construction interactive du modèle des données.Dans le domaine de l’extraction de connaissances dans les données, il existe des techniques expérimentalement validées pour l’amélioration des résultats des outils d’analyse de données en vue du traitement de grands ensembles de données. Deux approches sont utilisées dans ces techniques : une approche orientée données et une approche orientée algorithme. L’approche orientée données repose sur la discrétisation, la réduction du nombre d’observations ou la sélection des attributs pertinents de l’ensemble de données à traiter. Ce type d’approche permet ainsi de modifier l’ensemble de données initial par la sélection d’attributs (SA) et/ou la réduction d’observations.

L’approche orientée algorithme permet de concevoir des algorithmes rapides via l’optimisation de codes, la distribution des traitements, le parallélisme et la réduction de l’espace de recherche durant la construction du modèle de données.

Nous allons nous intéresser aux approches orientées données pour la sélection d’attributs les plus significatifs de l’ensemble de données à traiter et aux approches orientées algorithme qui prônent la réduction de l’espace de recherche durant cette sélection d’attributs. Un problème majeur se pose alors quant au choix d’une des méthodes connues d’avance pour la sélection d’attributs par exemple, sachant qu’il n’existe pas de méthode qui soit meilleure que toutes les autres dans tous les cas de figure. Une solution qui constitue notre contribution dans ce travail serait d’utiliser une combinaison de techniques ou de stratégies (méthodes de sélection d’attributs). Pour ce faire, nous nous appuyons sur la théorie du consensus dont nous expliciterons le principe dans l’état de l’art dédié à ce sujet. L’utilisation de cette combinaison de stratégies ou d’expertises pour la sélection d’attributs peut être justifiée par l’un des faits suivants :

  • il n’est pas possible de déterminer à priori quelle méthode de sélection de sous-ensemble d’attributs est meilleure que toutes les autres (en tenant compte des différences entre le temps d'exécution et la complexité (il s’agit ici de tolérer un temps d’exécution élevé pour un modèle qui nécessite également moins d’attributs)),
  • un sous-ensemble optimal d'attributs n'est pas nécessairement unique,
  • la décision d'un comité d'experts est généralement meilleure que la décision d'un seul expert.

Comme nous le verrons, l'algorithme de SA proposé qui combine des décisions de plusieurs experts reçoit en entrée des sous-ensembles d’attributs issus de plusieurs expertises et produit comme résultat un sous-ensemble unique d’attributs.

Les résultats obtenus après expérimentations permettent de conclure que l’approche proposée réduit de façon significative l’ensemble de données à traiter sans perte de qualité pour l’algorithme de classification utilisée et permet de les traiter de façon interactive.

Cette contribution commence par un état de l’art et la problématique du sujet abordé, puis, la technique utilisée pour la sélection d’attributs dans des ensembles de données est explicitée, ainsi que des problèmes relatifs à ce traitement. Ensuite, la théorie du consensus, l’algorithme de sélection d’attributs et la méthode d’agrégation des individus contenus dans les ensembles volumineux de données sont présentés. Enfin, nous procédons à des expérimentations avant la conclusion et les perspectives de ces travaux.

Figure 6.1 Représentation de l’ensemble de données Isolet (618 attributs, 1560 individus, 26 classes) sous forme de matrice en 2D
Figure 6.1 Représentation de l’ensemble de données Isolet (618 attributs, 1560 individus, 26 classes) sous forme de matrice en 2D [Chambers et al, 1983]
Figure 6.2 Représentation graphique d’un sous ensemble de 200 attributs de l’ensemble de données Isolet avec les coordonnées parallèles
Figure 6.2 Représentation graphique d’un sous ensemble de 200 attributs de l’ensemble de données Isolet avec les coordonnées parallèles [Inselberg, 1985]