L’objectif visé par ce travail est une amélioration de la qualité des outils de FVD. Les progrès scientifiques et techniques permettent de libérer les hommes des tâches répétitives et pénibles. Pour faire face à l’augmentation de la masse de données disponible à travers le monde et au désir de découvrir des connaissances enfouies dans ces données, des techniques d’ECD ont vu le jour. Initialement, le souci majeur pour ces techniques a été leur fonctionnalité ou qualité technique. Cependant, la qualité technique à elle seule ne permet pas de déterminer la qualité effective d’un logiciel. Il s’avère important de s’assurer aussi de leur convivialité et de la satisfaction des utilisateurs qui s’en servent, autrement, le temps passé à développer des outils techniquement efficaces serait vain. Nous pensons que la qualité interne (technique) des outils de FVD pour la classification supervisée est une condition nécessaire mais pas suffisante pour assurer leur qualité effective qui implique leur acceptabilité par leurs utilisateurs finaux. En effet, pour mesurer la qualité d’un outil de FVD pour la classification supervisée, on procède par exemple à la validation croisée. On obtient de ce processus le taux de précision du modèle construit qui en réalité illustre la qualité interne du logiciel.
Afin de permettre une étude qualitative un peu plus complète des outils de FVD, nous avons allié qualité technique, qualité et satisfaction d’utilisation, utilisabilité et utilité. Pour ce faire, nous avons trouvé les fondements de notre approche dans les disciplines telles que l’ergonomie des logiciels, le génie logiciel, les interfaces homme machine, etc.
L’ergonomie des logiciels à travers l’analyse des utilisateurs et de la tâche de FVD nous a permis de mieux cerner les utilisateurs ainsi que leurs besoins et la tâche de FVD. Ceci nous a conduit à la définition du modèle utilisateur. L’idée du modèle utilisateur est d’utiliser les informations relatives au profil et aux préférences des utilisateurs afin de pouvoir les guider tout au long du processus de découverte de connaissances dans les données. Comme montré dans le chapitre 3, le modèle utilisateur n’a pas encore été intégré dans un environnement de FVD.
Après avoir cerné les caractéristiques des utilisateurs, leurs besoins ainsi que la tâche de FVD, notre objectif a été de développer une méthode d’évaluation de ces outils qui puisse servir aux spécialistes (développeurs, analystes de données, etc.) et aux utilisateurs finaux et qui puisse permettre une analyse assez fine des outils de ce type. Nos travaux ont donné naissance à deux méthodes d’analyse et d’évaluation qualitative de ces outils. La première méthode est dédiée à l’inspection experte et la seconde méthode peut servir au diagnostic par tout type d’utilisateur des techniques de FVD. La méthode d’inspection experte est une adaptation des guides de style généraux d’analyse et d’évaluation des interfaces graphiques au domaine spécifique de la FVD. La méthode de diagnostic utilisateur mixe des aspects tels que la qualité technique, le modèle de présentation de l’interface, la qualité des visualisations ou représentations graphiques, la qualité d’utilisation, la qualité des scénarios et permet d’accéder aux points de vue subjectif et/ou objectif des utilisateurs à travers le thème utilisateur. Ces différents thèmes de la méthode d’analyse ou d’évaluation permettent d’opérer un réel diagnostic pour les outils existants et constituent des mises en garde pour le développement de nouveaux outils.
Des études de cas menées avec la méthode de diagnostic proposée nous ont permis de noter des problèmes de qualité qui ne relèvent pas de l’estimation de l’erreur de prédiction. Ce qui confirme notre hypothèse de départ : l’estimation de l’erreur de prédiction est une condition nécessaire, mais pas suffisante pour l’analyse qualitative en FVD.
L’analyse de la situation de travail en FVD ainsi que des études de cas portant sur le diagnostic des systèmes existants de FVD nous ont aussi permis de constater que le processus de FVD nécessitait de nombreux choix. Par exemple le choix de la méthode d’analyse de données à exécuter ou le choix de la méthode de visualisation de données nécessaire à l’exploration de données ou à la confirmation d’hypothèse sur ces données. Nous proposons une technique d’aide au choix de la meilleure méthode d’analyse de données pour la classification supervisée de donnés au chapitre 5.
Toujours dans l’optique de guider les utilisateurs, améliorant ainsi la qualité des outils de FVD, au chapitre 6, nous présentons une nouvelle approche pour le traitement des ensembles de données de très grande taille en FVD. Les limites de l’approche visuelle concernant le nombre d’individus et le nombre de dimensions sont connues de tous. Pour pouvoir traiter des ensembles de données de grande taille, une solution possible est d’effectuer un prétraitement de l’ensemble de données avant d’appliquer l’algorithme interactif de fouille visuelle. La réduction du nombre d’individus est effectuée par l’application d’un algorithme de clustering.
La réduction du nombre de dimensions se fait par la combinaison des résultats d’algorithmes de sélection d’attributs par application de la théorie du consensus (avec une affectation visuelle des poids).
Nous évaluons les performances de nos nouvelles approches sur des ensembles de données de l’UCI [Blake et Merz, 1998] et du Kent Ridge Bio Medical Dataset Repository [Jinyan et Huiqing, 2002].
Les travaux d’analyse, d’évaluation ou de diagnostic des outils de FVD s’apparentent à ceux de [Grinstein et al, 1997] qui évalue les matrices de scatter plot 2D, 3D, les coordonnées parallèles, etc. du point de vue technique (représentation de données de grande dimension, accès aux données, utilisation de couleur, etc.). Cependant, l’évaluation du point de vue utilisateur n’a pas été traitée dans ces travaux. Très récemment, sont apparus des travaux visant une étude qualitative des outils de FVD. Pour [Fangseu Badjio et Poulet, 2004a], il s’agissait de promouvoir un ensemble de recommandations ergonomiques pour le développement d’outils de FVD de bonne qualité. [Marghescu et al, 2004] ont proposé une méthode d’évaluation de la qualité de visualisation, de la qualité d’interaction et de la qualité d’information d’un environnement de FVD. L’évolution de nos travaux décrits dans [Fangseu Badjio et Poulet, 2004a] a conduit à l’analyse conjointe de l’utilisabilité, de l’utilité et l’acceptabilité des environnements de FVD [Fangseu Badjio et Poulet, 2005a], [Fangseu Badjio et Poulet, 2005b]. Par rapport aux travaux de [Marghescu et al, 2004], dans nos travaux, nous analysons plus finement les outils de FVD. En plus de la qualité de l’interaction, de l’information et de la visualisation étudiés par l’approche qu’ils ont proposée, nous nous intéressons au modèle de présentation de l’interface utilisateur, à la qualité technique de l’outil (système d’exploitation (interopérabilité), l’accès et le traitement des données, l’adaptabilité de la tâche de FVD) à l’aisance de l’utilisateur.
En perspectives à nos travaux, du point de vue analyse ou évaluation qualitative, la technique de diagnostic basée sur des métriques de qualité (chapitre 4) que nous avons proposée se présente à l’heure actuelle sous forme d’un questionnaire. Nous envisageons une automatisation de ce questionnaire avec possibilité de pondération et de support à la décision quant au choix d’un logiciel de FVD. Nous comptons aussi faire valider expérimentalement la méthode d’inspection experte proposée au chapitre 3.
Du point de vue guidage des utilisateurs, nous envisageons premièrement un déploiement du modèle utilisateur proposé au chapitre 3 dans un outil de FVD et une évaluation de sa valeur ajoutée.
Deuxièmement, en ce qui concerne la technique d’aide au choix de la meilleure méthode d’analyse de données pour la classification supervisée proposée au chapitre 5, l’aide aux utilisateurs est sous forme textuelle. Nous envisageons l’emploi d’une méthode visuelle à l’instar des cartes ou des réseaux pour guider les utilisateurs. La carte ou le réseau à développer devra donner une idée de l’impact des choix réalisables sur la suite du processus de FVD. Nous comptons aussi utiliser les résultats obtenus dans ce chapitre pour un meilleur paramétrage des algorithmes de classification supervisée.
Enfin, en ce qui concerne le prétraitement de grands ensembles de données, nous comptons étendre l’application de la théorie du consensus au choix de la meilleure méthode de visualisation de données pour un ensemble de données à traiter.