5.2. 3 Support par des expérimentations au choix de la méthode d’analyse : description du problème

L’idée ici est de permettre à l’analyste des données d’obtenir, en fonction de l’ensemble de données du problème qu’il aurait à résoudre, la liste des algorithmes disponibles dans l’environnement classés du plus performant au moins performant. L’ensemble d’expériences réalisées soit sur les données soit sur les algorithmes forme la base de cas. Pour effectuer le choix de l’algorithme le plus adéquat pour un problème en entrée de l’environnement, on doit retrouver des cas similaires dans la base de cas et les adapter au cas considéré.

Pour cela, nous recherchons parmi les ensembles de données déjà traités, les plus similaires à celui en entrée du système à l’aide d’un algorithme des k plus proches voisins travaillant sur des mesures de comparaison des ensembles de données et un seuil de similarité. L’algorithme le plus performant ayant servi à l’exécution sur les données les plus similaires aux données du problème à résoudre est exécuté. La formalisation de notre problème est la suivante :

Etant donné :

un ensemble A d’algorithmes candidats pour une tâche de classification supervisée dans un environnement de FVD,
un ensemble D d’ensembles de données dont les performances (précision, temps d’apprentissage, temps de test) sur chaque algorithme de l’ensemble d’algorithmes A sont connues,
un nouvel ensemble de données d relatif au problème d’un utilisateur,

Il s’agit de procéder à un apprentissage par analogie :

sélectionner dans l’ensemble D un sous-ensemble S d’ensembles de données tel que chaque élément de S soit similaire à d,
retrouver les informations concernant les performances (précision, temps d’apprentissage, temps de test) des algorithmes de A sur les ensembles de données de S,
prédire la performance des algorithmes de A sur d en fonction des performances des algorithmes de A sur les données de S.