6.8 Conclusion

Nous avons présenté un algorithme basé sur la théorie du consensus et l’affectation visuelle de poids pour la sélection d’attributs significatifs en FVD. En effet, lorsque le nombre d’attributs et/ou le nombre d’observations d’un ensemble de données est important, il s’avère impossible ou alors pénible de représenter graphiquement l’ensemble de données et d’observer des corrélations dans cet ensemble de données.

La technique présentée permet de définir un nombre maximum d’attributs à sélectionner dans l’ensemble de données à traiter, nombre rendant possible la visualisation de ces données. La première nécessité pour nous est de pouvoir représenter visuellement l’ensemble de données à traiter. Les expérimentations effectuées à cet effet ont été concluantes. Ensuite, nous nous sommes intéressés à la précision des algorithmes C4.5 et kppv sur les ensembles de données à traiter pourvus uniquement des attributs relevés par application de la théorie du consensus. Force a été pour nous de constater que pour plusieurs de ces ensembles de données le taux de précision était amélioré par rapport au taux de précision initial (pour les kppv) et par rapport à LVF et Stepclass pour C4.5. Cette comparaison a été concluante comme l’indique les résultats obtenus en section 5. A la suite de la sélection des attributs, l’utilisation des algorithmes de clustering nous permet de réduire le nombre d’individus des ensembles de données de 50 à 75% avec un maximum de 200 clusters par application de l’algorithme K-Means.

Comme perspectives à ces travaux, nous comptons étendre l’application de la théorie du consensus au choix de la meilleure méthode de visualisation de données pour un ensemble de données à traiter.