Des mesures statistiques permettent de définir la similarité entre ensembles de données. Ces ensembles de données ont des attributs qualitatifs et quantitatifs.
|
[Michie et al, 1994], [Seewald, 2002], [Kalousis, 2002] | |||||||||||||
cancor1 [Köpf et Iglezakis, 2002] |
premier coefficient de corrélation canonique | |||||||||||||
fract1 [Köpf et Iglezakis, 2002] |
première valeur propre | |||||||||||||
Skewness [Michie et al, 1994] |
coefficient d'asymétrie | |||||||||||||
Kurtosis [Michie et al, 1994] |
coefficient d'aplatissement | |||||||||||||
HA
[Kalousis, 2002] |
entropie d’attribut | |||||||||||||
[Kalousis, 2002] | entropie moyenne des attributs | |||||||||||||
HX
[Kalousis, 2002] |
entropie de classes | |||||||||||||
MCx [Kalousis, 2002] |
entropie mutuelle des classes et d’attributs | |||||||||||||
[Kalousis, 2002] | entropie mutuelle moyenne des classes et d’attributs | |||||||||||||
EnAtr [Kalousis, 2002] |
nombre équivalent d’attributs |
La comparaison des ensembles de données est possible grâce aux mesures du tableau 5.2. La définition et l’utilisation de ces différentes mesures ont été tirées des travaux tels que [Michie et al, 1994], [Seewald, 2002], [Kalousis, 2002] et [Köpf et Iglezakis, 2002].
En ce qui concerne l’évaluation des performances des algorithmes, les critères utilisés sont : le taux de précision obtenu par les modèles fournis par l’algorithme et le temps d’exécution (en phase d’apprentissage et en phase de test). Ces critères sont mémorisés dans l’historique des expériences issues de l’exécution des algorithmes.