5.2 Assistance à la conception du modèle de données : retrouver les meilleurs algorithmes de classification supervisée

La fouille de données nécessite la mise en oeuvre, explicite ou non, de méthodes statistiques classiques (graphiques, sondages, composantes principales, correspondances multiples, classification hiérarchique, nuées dynamiques, discriminante, k plus proches voisins, segmentation, régression linéaire, logistique) ou moins classiques (arbres de classification et de régression, modèles graphiques d’indépendance conditionnelle) ou d’intelligence artificielle (perceptron multicouche, réseau auto associatif et bayésien, apprentissage et règles d’induction, reconnaissance de formes).

Afin de faciliter le choix de la meilleure méthode d’analyse de données, l’idéal pour un système d’ECD aurait été d’implémenter une de ces techniques, pouvant être utilisée pour la résolution de tout type de problème. Malheureusement, tout le monde s’accorde sur le fait qu’il n’existe pas de méthode d’analyse de données qui surpasse toutes les autres pour la résolution de différents types de problèmes, un algorithme peut être performant pour un problème donné et non performant pour un autre. Pour le traitement d’un problème soumis en entrée de l’environnement de fouille, se pose donc le problème de choix des (de l’) algorithme(s) le(s) plus approprié(s) à cet effet. La responsabilité de ce choix dans la plupart des systèmes de fouille a été laissée aux soins du spécialiste des méthodes d’analyse (statisticien) qui est l’utilisateur final de l’outil. Les outils de FVD peuvent aussi être utilisés par des utilisateurs spécialistes du domaine des données. Les avantages d’une telle approche sont : l’utilisation de l'expertise du domaine des données tout au long du processus de fouille, la compréhensibilité et la confiance dans le modèle de données construit sont accrues car l'utilisateur a participé à sa construction, l’utilisation des capacités humaines en reconnaissance de formes.

Cette approche a cependant des inconvénients. La sélection de l’algorithme d’analyse de données par exemple n’est pas toujours triviale pour le spécialiste des méthodes d’analyse, encore moins pour le spécialiste des données. Il est donc nécessaire d’aider l’utilisateur afin qu’il fasse les meilleurs choix et qu’il conçoive le meilleur modèle des données. Dans cet ordre d’idées, nous avons rapproché le problème du choix d’algorithme d’analyse de données d’un problème de décision avec la possibilité de faire des prédictions.

Le paragraphe suivant situe plus explicitement le cadre de ce travail.