5.4.1.4 Evaluation de l’impact des critères

L’évaluation de l’impact des critères fait suite à plusieurs étapes. Premièrement, pour l’initialisation de la base de connaissances, les phases suivantes sont exécutées : répertorier des ensembles de données, calculer les valeurs des critères de comparaison des données sur ces ensembles, effectuer des classifications sur les ensembles de données par les algorithmes disponibles sur la plate forme de fouille, évaluer les résultats puis garder une trace des résultats obtenus.

Deuxièmement pour un nouveau problème posé, il s’agit de retrouver le(s) problème(s) résolus dont les solutions peuvent être réutilisées pour le traitement du nouveau cas, puis, de proposer les algorithmes les plus performants ordonnés par performances décroissantes aux utilisateurs.

Typiquement, on représente un ensemble de données par un vecteur de critères du tableau 5.2 (nombre d’individus, moment d’ordre 3, 4, entropie, etc.). Après calculs, on associe à chaque critère sa valeur. Les critères de comparaison sont tous à valeur numérique. Nous pouvons donc utiliser une variante de la métrique de Minkowski pour évaluer la ressemblance entre les ensembles de données. Chaque élément de U pour un cas à traiter sera obtenu par la variante choisie de la formule (1) dont les paramètres sont explicités dans le paragraphe suivant.

xi et yi représentent respectivement les valeurs du ième attribut décrivant les critères x et y. wi représente le poids attribué à cet attribut. Pour p = 1, on parle de distance de Manhattan, pour p = 2, on parle de distance euclidienne et pour p = , on parle de distance de Chebychev.

Pour un attribut donné du vecteur de comparaison de critères, la distance est calculée à partir des différences | xi - yi |. Lorsque les attributs décrivant les exemples ont des domaines de valeurs de tailles différentes, il y a un risque de fausser les résultats. Pour p = 1 par exemple, les attributs ayant une grande dispersion de valeurs (grand écart | xi - yi |) sont implicitement favorisés, ce qui contribue à augmenter exagérément la distance [Bisson, 2000]. Il est donc nécessaire de procéder à une normalisation. Avec la normalisation, la formule que nous utilisons, spécifiée ci-dessous pondère équitablement à la fois les grands écarts et les petits écarts.

Comme l’indique la section 5.2 consacrée à la synthèse des travaux réalisés dans le domaine de cette étude, d’autres approches méthodologiques peuvent être utilisées. Le paragraphe suivant présente leurs principales limites.