Nous présentons une nouvelle technique de support automatique au choix du meilleur algorithme de classification supervisée de données pour la FVD qui corrige des erreurs observées dans les techniques existantes, utilisées dans le domaine de la classification supervisée, notamment la propagation de l’erreur de prédiction comme nous le verrons. Ces travaux que nous décrivons (choix d’un algorithme automatique pour la FVD) concernent les deux premières variantes du modèle de Ankerst et visent à une amélioration de la qualité des outils de FVD. Il s’agit dans une certaine mesure d’assister l’activité de conception du modèle des données. Les études en qualité des logiciels de FVD présentées dans les chapitres 3 et 4 montrent qu’il est nécessaire d’orienter, de conseiller, d’informer les utilisateurs de ces environnements. Partant de ce constat purement théorique, nous allons procéder à sa mise en pratique dans des outils de FVD. Concrètement, nous allons concevoir, développer et présenter un système d’aide à la décision pour le processus de FVD. L’aboutissement de l’activité de FVD est la création d’un modèle des données à traiter. Il s’agit d’une activité de conception à part entière et par conséquence en plus des besoins en système d’aide à la décision pour une meilleure qualité des systèmes de FVD, on peut trouver des fondements de cette nécessité d’assistance aux utilisateurs dans d’autres disciplines, par exemple en conception.
Face à l’augmentation de la quantité de données disponible dans le monde, la visualisation a été adoptée en fouille de données comme méthode d’exploration, de confirmation d’hypothèses ou enfin de présentation de données/résultats. La visualisation a ensuite servi comme technique de support à la découverte de connaissances dans les données. Le principe étant le suivant : à partir d’un ensemble de données, une représentation graphique est produite. L’utilisateur s’appuie sur cette représentation et sur ses capacités en reconnaissance de formes pour paramétrer l’algorithme de découverte de connaissances, concevoir le modèle des données et procéder à des estimations.
La FVD consiste donc en l’utilisation de la visualisation comme canal de communication pour la fouille de données. Pour assister les utilisateurs dans un tel processus, il est nécessaire de prendre en compte les informations relatives à leurs profils ou à leurs compétences, à la tâche et au contexte du travail. Dans la plupart de domaines nécessitant une activité de conception (l’art, la programmation en informatique, l’architecture, l’industrie, etc…), des stratégies ont été développées pour une assistance à la conception (brainstorming pour la créativité collective, travail par association d’idées, etc. [Hatcheut et al., 2005]). Dans l’industrie en général, l’activité de conception a été rationalisée par la mise au point du langage de projet qui permet la gestion de toutes les phases de conception d’un nouveau produit. La nécessité d’assistance aux utilisateurs des outils de FVD ne relève donc pas seulement de la qualité des logiciels, des interfaces ou de l’ergonomie du logiciel.
Avant d’introduire le mécanisme de support à la décision du « fouilleur de données » et afin d’étayer notre propos, nous allons nous intéresser aux analogies qui peuvent exister entre l’activité de conception en général et l’activité de FVD. L’activité de FVD rappelons le aboutit à la conception d’un modèle des données.