6.7.1.1 Premier test

Le domaine considéré dans le cadre de cette première expérimentation est constitué d’un ensemble M constitué de 3 experts de type filtre et de 3 experts de type enveloppe E = {consistence, entropie de Shannon, distance, (LDA, QDA, Kppv) [Ripley, 1996]}, le nombre d’attributs susceptibles d’être traités convenablement est C _cmd = 20.

Les résultats de l’algorithme proposé (CTBFS) sont comparés à ceux de Las Vegas Filter [Liu et Setiono, 1996], un algorithme de sélection d’attributs de type filtre et StepClass du package KlaR (langage de programmation R), un algorithme de sélection d’attributs de type enveloppe. A cet effet, nous évaluons les performances des ensembles de données pourvus des attributs sélectionnés par ces trois méthodes (LVF, StepClass et CTBFS) avec l’algorithme des k plus proches voisins kppv (implémentation de WEKA [Witten et Eibe, 2005]). Nous avons fixé le paramètre K de l’algorithme des kppv à 1.

Les ensembles de données à traiter dans le cadre de cette première expérimentation sont pourvus de nombreux attributs (colonne 2 du tableau 6.1) et il serait impossible de les visualiser en une seule fois à l’écran quelque soit la méthode de représentation graphique choisie.

Les résultats exposés dans le tableau 6.1 permettent d’observer que l’algorithme CTBFS que nous proposons permet de réduire considérablement le nombre d’attributs des ensembles de données comme le montre les résultats de la colonne 3 du tableau 6.1. La colonne 5 de ce tableau quant à elle fait observer que la précision de l’algorithme de kppv est améliorée pour 4 ensembles de données sur 7. Pour les trois autres ensembles de données, on assiste certes à une perte de précision avec un écart maximal de 16.97% avec un minimum de précision de 68.87% mais l’ensemble de données final peut être visualisé et traité de manière interactive, ce qui n’est pas le cas des ensembles de données initiaux comme nous l’avons souligné.

Tableau 6.1 Comparaison du nombre d’attributs et de la précision obtenus avec l’algorithme des kppv avant et après la sélection d’attributs par l’algorithme CTBFS
Nom NbAt_Initial NbAt_CTBFS Précision_initiale Précision_CTBFS
Lung-Cancer 57 4 37.5% 75%
Promoter 59 9 85.84% 68.87%
Sonar 60 8 86.54% 71.15%
Arrhythmia 280 4 53.44% 59.96%
Isolet 618 14 85.57% 70.24%
ColonTumor 2000 19 77.42% 79.03%
CentralNervSyst 7129 20 56.67% 60%

Tableau 6.2 Comparaison du nombre d’attributs et de la précision obtenus avec l’algorithme des kppv avant et après la sélection d’attributs par les algorithmes CTBFS, LVF et Stepclass.
Nom
NbAttr CTBFS NbAttr LVF NbAttr Stepclass CTBFS précision LVF
précision Stepclass précision
Lung-Cancer 4 17 4 75% 62.5% 71.87%
Promoter 9 16 59 68.87% 80.19% 85.85%
Sonar 8 18 4 71.15% 82.21% 71.63%
Arrhythmia 4 109 4 59.96% 54.65% 60.84%
Isolet 14 268 8 70.24% 83% 57.98%
ColonTumor 19 918 5 79.03% 77.42% 79.03%
CentralNervSyst 20 3431 8 60% 58.33% 71.67%

On observe sur la colonne 3 du tableau 6.2 que la méthode LVF permet de sélectionner un nombre très important d’attributs, qu’il serait impossible de visualiser (par exemple pour les ensembles de données Arrhythmia, Isolet, ColonTumor et CentralNervSyst). Par rapport à la méthode proposée, la précision obtenue pour ces ensembles de données est équivalente voire supérieure par exemple pour l’ensemble de données Isolet, sachant que l’algorithme CTBFS renvoie au maximum 20 attributs. En ce qui concerne l’algorithme Stepclass, l’ensemble de données Promoter possède aussi un nombre important d’attributs.

En terme de précision, en dehors de l’ensemble de données Promoter pour lequel CTBFS a une précision inférieure à celle de Stepclass et de LVF, la précision obtenue pour les autres ensembles de données avec l’algorithme proposé est au moins égale suivant les cas à celle de LVF ou à celle de Stepclass mais avec un nombre d’attributs qui convient à la fouille visuelle de données.