5.5 Conclusion

En fouille ou analyse de données, différentes méthodes ou stratégies peuvent être utilisées pour effectuer une tâche. La meilleure solution dépend bien entendu du problème à traiter d'où la nécessité d'une méthode permettant de guider l'utilisateur afin de lui permettre d'atteindre cette meilleure solution sachant que la prédiction de performance des algorithmes entraîne un gain en temps car l’utilisateur n’exécute pas tous les algorithmes d’analyse de données avant de choisir le plus approprié pour sa tâche.

Pour les besoins de cette étude visant un meilleur guidage des utilisateurs des environnements de FVD, nous avons développé deux systèmes. Le premier système implémente un des meilleurs résultats obtenus dans le domaine de la prédiction des performances des algorithmes [Brazdil et al., 2003]. Ensuite nous avons procédé à des améliorations en tenant compte des enseignements venant de la première expérimentation pour le développement du second système.

Les méthodes proposées pour le choix de l’algorithme le plus performant pour un problème donné s’appuient sur des critères de comparaison des données et sur des critères de qualité des algorithmes. Pour un problème soumis en entrée de l’environnement de fouille, il s’agit de retrouver par analogie l’algorithme le plus performant ayant servi à la résolution d’un problème similaire au problème à résoudre déjà traité et dont le résultat est stocké dans une base de connaissances. Force a été pour nous de constater que ces travaux s’arrêtaient juste à la proposition soit d’un algorithme, soit d’une composition de processus probables de classification. Ces systèmes utilisent soit le raisonnement à base de cas, soit des ontologies à cet effet. Pour le raisonnement à base de cas, le système s’appuie sur l’expérience (cas déjà résolus). Ces cas résolus vont guider la compréhension des nouvelles situations. Un système de ce type effectue une recherche des cas similaires au problème à résoudre dans la base de connaissances. Même si un tel cas n’existe pas, une classification selon les cas similaires est effectuée et cette classification entraîne une perte d’information. En général, deux cas de figure se présentent : soit les cas nouveaux (non expérimentés) sont traités avec perte d’informations ou ces cas ne sont pas du tout traités. En effet, ces algorithmes de prédiction n’utilisent que des fonctions de calcul de similarités mais pas des fonctions pour l’adaptation.

Nous avons intégré la fouille graphique de données dans un SMA qui permet de par son autonomie l’évolutivité de l’environnement et des connaissances et de par son parallélisme un gain de temps de traitement. Contrairement aux approches existantes qui ne prévoient pas le traitement de nouveaux algorithmes et de nouveaux ensembles de données, l’approche proposée traite ce problème.

La principale limite de ce nouveau système concerne le temps d’exécution. En effet, la prédiction des performances pour les cas « nouveaux » ne permet pas un gain de temps, l’ensemble des algorithmes est exécuté sur le nouvel ensemble de données ou bien le nouvel algorithme est exécuté sur l’ensemble des ensembles de données. Cette limite constitue le principal atout de la méthode. En effet, ces différentes exécutions évitent une propagation de l’erreur de prédiction observée dans les systèmes existants, garantissant ainsi la qualité de connaissances sauvegardées.

Le paramétrage des algorithmes de classification supervisée constitue aussi un problème en guidage des utilisateurs. Comme perspectives au support au choix de meilleurs algorithmes de classification, on pourrait appliquer la méthode décrite dans ce chapitre, basée sur des critères de comparaison des ensembles de données à la définition de meilleurs paramètres compte tenu du paramétrage des cas déjà traités.