Dans ce second test, on va s’intéresser au comportement de l’algorithme CTBFS sur des ensembles de données de taille moyenne. Le domaine considéré reste le même. Les résultats obtenus par CTBFS sont aussi comparés à ceux de LVF et Stepclass. Dans cette expérimentation, nous évaluons les performances des ensembles de données pourvus des attributs sélectionnés par LVF, StepClass et CTBFS avec l’algorithme C4.5, implémentation de WEKA.
NbAt Initial | NbAt CTBFS | NbAt LVF | NbAt STEP | Précis CTBFS | Précis LVF |
Précis STEP | |
arrhythmia | 280 | 4 | 109 | 4 | 66.15% | 66.15% | 63.72% |
bupa | 6 | 5 | 2 | 4 | 68.99% | 52.17% | 60% |
credit_a | 15 | 5 | 3 | 4 | 86.53% | 73.06%% | 74.90% |
crx | 15 | 5 | 3 | 5 | 77.97% | 63.33% | 73.48% |
glass | 9 | 3 | 2 | 2 | 61.22% | 47.66% | 62.62% |
hepatitis | 19 | 6 | 4 | 16 | 80% | 79.35% | 80.65% |
ionosphere | 34 | 4 | 8 | 2 | 88.89% | 83.76% | 79.77% |
isolet | 618 | 14 | 268 | 8 | 66.58% | 73.83% | 58.63% |
lung_cancer | 57 | 4 | 17 | 4 | 71.88% | 62.5% | 65.63% |
monks | 6 | 4 | 3 | 2 | 89.52% | 74.19% | 72.58% |
promoter | 59 | 9 | 16 | 59 | 74.53% | 68.87% | 79.25% |
sonar | 60 | 8 | 18 | 4 | 71.15% | 64.90% | 65.87% |
Voting | 16 | 7 | 3 | 8 | 94.94% | 88.51% | 96.32% |
Le premier objectif du prétraitement des données pour la FVD rappelons-le est la réduction du nombre d’attributs, autrement, il est impossible de traiter l’ensemble de données. Ensuite, on s’intéresse à la variation de la précision dans les ensembles de données résultant de ce prétraitement. La colonne 3 du tableau 6.3 montre que ce premier objectif est atteint pour les différents ensembles de données testés. Il est à noter que l’observation des résultats obtenus avec l’algorithme LVF relève un nombre beaucoup plus important d’attributs sélectionnés pour les ensembles de données Arrythmia et Isolet.
En ce qui concerne la précision, on observe un gain avec l’approche proposée sur plusieurs ensembles de données traités (bupa, credit_a, crx, ionosphere, lung_cancer, monks et sonar). Une égalité de précision apparaît entre CTBFS et LVF/Stepclass pour les ensembles de données arrythmia/hepatitis. Etant donné le nombre d’attributs sélectionnés par LVF pour Isolet et Stepclass pour Promoter, nous pouvons conclure que CTBFS permet d’obtenir de meilleurs résultats, le traitement interactif pouvant s’opérer dans les deux cas de figure avec cette méthode.