6.7.1.2 Deuxième test

Dans ce second test, on va s’intéresser au comportement de l’algorithme CTBFS sur des ensembles de données de taille moyenne. Le domaine considéré reste le même. Les résultats obtenus par CTBFS sont aussi comparés à ceux de LVF et Stepclass. Dans cette expérimentation, nous évaluons les performances des ensembles de données pourvus des attributs sélectionnés par LVF, StepClass et CTBFS avec l’algorithme C4.5, implémentation de WEKA.

Tableau 6.3 Comparaison du nombre d’attributs et de la précision obtenus avec l’algorithme C4.5 avant et après la sélection d’attributs par les algorithmes CTBFS, LVF et Stepclass.
  NbAt Initial NbAt CTBFS NbAt LVF NbAt STEP Précis CTBFS Précis
LVF
Précis STEP
arrhythmia 280 4 109 4 66.15% 66.15% 63.72%
bupa 6 5 2 4 68.99% 52.17% 60%
credit_a 15 5 3 4 86.53% 73.06%% 74.90%
crx 15 5 3 5 77.97% 63.33% 73.48%
glass 9 3 2 2 61.22% 47.66% 62.62%
hepatitis 19 6 4 16 80% 79.35% 80.65%
ionosphere 34 4 8 2 88.89% 83.76% 79.77%
isolet 618 14 268 8 66.58% 73.83% 58.63%
lung_cancer 57 4 17 4 71.88% 62.5% 65.63%
monks 6 4 3 2 89.52% 74.19% 72.58%
promoter 59 9 16 59 74.53% 68.87% 79.25%
sonar 60 8 18 4 71.15% 64.90% 65.87%
Voting 16 7 3 8 94.94% 88.51% 96.32%

Le premier objectif du prétraitement des données pour la FVD rappelons-le est la réduction du nombre d’attributs, autrement, il est impossible de traiter l’ensemble de données. Ensuite, on s’intéresse à la variation de la précision dans les ensembles de données résultant de ce prétraitement. La colonne 3 du tableau 6.3 montre que ce premier objectif est atteint pour les différents ensembles de données testés. Il est à noter que l’observation des résultats obtenus avec l’algorithme LVF relève un nombre beaucoup plus important d’attributs sélectionnés pour les ensembles de données Arrythmia et Isolet.

En ce qui concerne la précision, on observe un gain avec l’approche proposée sur plusieurs ensembles de données traités (bupa, credit_a, crx, ionosphere, lung_cancer, monks et sonar). Une égalité de précision apparaît entre CTBFS et LVF/Stepclass pour les ensembles de données arrythmia/hepatitis. Etant donné le nombre d’attributs sélectionnés par LVF pour Isolet et Stepclass pour Promoter, nous pouvons conclure que CTBFS permet d’obtenir de meilleurs résultats, le traitement interactif pouvant s’opérer dans les deux cas de figure avec cette méthode.