5.4 Solution proposée

Comme support à la décision des analystes de données, nous présentons un algorithme permettant de prédire les performances d'algorithmes de classification supervisée en fonction des données en entrée du système. A cet effet, un système de raisonnement à partir de cas est utilisé. La base de cas est constituée de l'ensemble des expériences déjà réalisées (applications des algorithmes de classification supervisée sur des ensembles de données et caractéristiques des résultats obtenus). Pour un nouvel ensemble de données à traiter, la première étape est alors de rechercher dans la base de cas, l'ensemble de données le plus similaire à celui en entrée. Pour cette recherche nous utilisons un algorithme des k plus proches voisins. La similarité est calculée sur un ensemble de mesures de comparaisons des ensembles de données. Contrairement aux approches existantes, et afin de ne pas considérer comme semblables deux ensembles de données qui ne le sont pas suffisamment, nous utilisons un seuil en deçà duquel les données en entrée ne seront plus considérées comme semblables au plus proche voisin trouvé (on parle de mécanisme de rejet de distance [Dubuisson, 1990]). Deux cas se présentent alors, soit les données en entrée sont suffisamment semblables au plus proche voisin trouvé et alors on obtient le classement des algorithmes de classification suivant leur performance sur ce plus proche voisin, soit les données en entrée sont trop différentes du plus proche voisin et alors on exécute l'ensemble des algorithmes disponibles sur les données en entrée. Dans ce dernier cas, afin de limiter le temps d'attente de l'utilisateur, on peut prévoir d'exécuter les différents algorithmes en parallèle puisque ces exécutions sont totalement indépendantes les unes des autres.