5.3.1.2 Second test

L’ensemble A _{reste identique à celui du pmier test, l’ensemble D
_{contient beaucoup plus d’ensembles de données (19 au total) [Michie et al, 1994], [Blake et Merz, 1998], [Metal, 2005], les valeurs des mesures de comparaison sont connues, on a :}}

L’ensemble de données du problème à résoudre : d = heart.

Les performances des algorithmes de A sur D sont connues.

Application de l’algorithme des plus proches voisins

Tout comme dans l’exemple précédent, afin d’observer l’erreur de prédiction, nous nous sommes limités aux cinq plus proches voisins de d, avec k = 5. Nous avons donc comme plus proches voisins de d (Heart) les ensembles de données TseTse, NewBelgian, SatImage, Credit et Australian.

Prédiction des performances des algorithmes de A sur d

Pour la performance des algorithmes, nous avons aussi choisi de travailler avec les cinq meilleurs algorithmes de chaque ensemble de données.

La première colonne du tableau 5.5 représente les noms des ensembles de donnés les plus proches de d, du plus similaire au moins similaire. Pour chacun de ces ensembles de données, les colonnes de 2 à 6 représentent par ordre décroissant de performances, les algorithmes de A appropriés au traitement des ensembles de données de la colonne 1.

Tableau 5.5 Prédiction des performances des algorithmes de A sur d en fonction des cas similaires à d
	1	2	3	4	5
TseTse	Cn2	IndCART	NewId	CART	Smart -Ac2
NewBelgian	Smart	IndCART	NewId	C4.5	Ac2
SatImage	KNN	LVQ	Dipol92	RBF	Alloc80
Credit	C4.5	IndCART	Cal5	Smart	Castle
Australian	Cal5	Itrule	Discrim	Logdiscr	Dipol92

L’ensemble de données TseTse est le plus similaire à d (SIM(TseTse, heart) = 0.9370), les algorithmes les plus performants ayant servi au traitement de TseTse devraient être les plus performants pour d.

Performance effective de d et évaluation de la qualité des prédictions

Après avoir obtenu les prédictions de performances des algorithmes de A sur d, nous avons cherché à savoir quelle était la pertinence de cette prédiction. Pour cela, nous avons recherché la performance effective des algorithmes de A sur d. Les meilleurs algorithmes pour le traitement de l’ensemble de données d sont : NaivesBayes, Discrim, Logdiscr, Alloc80, Quadisc.

Le meilleur algorithme obtenu par exécution de tous les algorithmes de A sur d est donc NaiveBayes. Cet algorithme n’apparaît pas dans la liste des 5 meilleurs algorithmes prédits pour TseTse ni par les autres voisins de d. Discrim et Logdisc, respectivement deuxième et troisième algorithmes plus performants pour le traitement de d sont retrouvés en troisième et quatrième position du classement des performances des algorithmes du cinquième plus proche voisin de d (Australian). Alloc80 qui occupe la quatrième position du tableau 5.11 est le cinquième algorithme plus performant du troisième plus voisin de d et Quadisc n’apparaît pas dans les prédictions. L’explication relative à ces résultats est la suivante : malgré le fait que les ensembles de données TseTse, NewBelgian, SatImage, Credit et Australian soient les plus proches voisins de d, leur similarité avec d est faible.