5.2.3.5 Eléments de décision pour la comparaison des ensembles de données

Des mesures statistiques permettent de définir la similarité entre ensembles de données. Ces ensembles de données ont des attributs qualitatifs et quantitatifs.

Tableau 5.2 Mesures de description des ensembles de données

Tableau 5.2 Mesures de description des ensembles de données
n	nombre d’enregistrements
p	nombre d’attributs
k	nombre de classes
bin	nombre d’attributs binaires
nom	nombre d’attributs nominaux
SDratio	ratio de l’écart type

[Michie et al, 1994], [Seewald, 2002], [Kalousis, 2002]

cancor1
[Köpf et Iglezakis, 2002]

premier coefficient de corrélation canonique

fract1
[Köpf et Iglezakis, 2002]

première valeur propre

Skewness
[Michie et al, 1994]

coefficient d'asymétrie

Kurtosis
[Michie et al, 1994]

coefficient d'aplatissement

H_A
[Kalousis, 2002]

entropie d’attribut

[Kalousis, 2002]

entropie moyenne des attributs

H_X
[Kalousis, 2002]

entropie de classes

MCx
[Kalousis, 2002]

entropie mutuelle des classes et d’attributs

[Kalousis, 2002]

entropie mutuelle moyenne des classes et d’attributs

EnAtr
[Kalousis, 2002]

nombre équivalent d’attributs

La comparaison des ensembles de données est possible grâce aux mesures du tableau 5.2. La définition et l’utilisation de ces différentes mesures ont été tirées des travaux tels que [Michie et al, 1994], [Seewald, 2002], [Kalousis, 2002] et [Köpf et Iglezakis, 2002].

En ce qui concerne l’évaluation des performances des algorithmes, les critères utilisés sont : le taux de précision obtenu par les modèles fournis par l’algorithme et le temps d’exécution (en phase d’apprentissage et en phase de test). Ces critères sont mémorisés dans l’historique des expériences issues de l’exécution des algorithmes.