5.2.3.5 Eléments de décision pour la comparaison des ensembles de données

Des mesures statistiques permettent de définir la similarité entre ensembles de données. Ces ensembles de données ont des attributs qualitatifs et quantitatifs.

Tableau 5.2 Mesures de description des ensembles de données
Tableau 5.2 Mesures de description des ensembles de données
n nombre d’enregistrements
p nombre d’attributs
k nombre de classes
bin nombre d’attributs binaires
nom nombre d’attributs nominaux
SDratio ratio de l’écart type
[Michie et al, 1994], [Seewald, 2002], [Kalousis, 2002]
cancor1
[Köpf et Iglezakis, 2002]
premier coefficient de corrélation canonique  
fract1
[Köpf et Iglezakis, 2002]
première valeur propre  
Skewness
[Michie et al, 1994]
coefficient d'asymétrie  
Kurtosis
[Michie et al, 1994]
coefficient d'aplatissement  
HA
[Kalousis, 2002]
entropie d’attribut  
[Kalousis, 2002] entropie moyenne des attributs  
HX
[Kalousis, 2002]
entropie de classes  
MCx
[Kalousis, 2002]
entropie mutuelle des classes et d’attributs  
[Kalousis, 2002] entropie mutuelle moyenne des classes et d’attributs  
EnAtr
[Kalousis, 2002]
nombre équivalent d’attributs  

La comparaison des ensembles de données est possible grâce aux mesures du tableau 5.2. La définition et l’utilisation de ces différentes mesures ont été tirées des travaux tels que [Michie et al, 1994], [Seewald, 2002], [Kalousis, 2002] et [Köpf et Iglezakis, 2002].

En ce qui concerne l’évaluation des performances des algorithmes, les critères utilisés sont : le taux de précision obtenu par les modèles fournis par l’algorithme et le temps d’exécution (en phase d’apprentissage et en phase de test). Ces critères sont mémorisés dans l’historique des expériences issues de l’exécution des algorithmes.