5.2.2 Etat de l’art : synthèse des travaux en prédiction de performances d’algorithmes de classification

Le choix des (de l’) algorithme(s) le(s) plus approprié(s) pour la résolution d’un problème donné dans un environnement de fouille de données a fait l’objet de plusieurs travaux. Dans un premier temps, ces travaux visaient la sélection d’un unique algorithme pour la classification des données. Nous pouvons citer par exemple, des travaux basés sur l’exploitation des connaissances des experts en ce qui concerne l’applicabilité des algorithmes [Brodley, 1995]. L’inconvénient de cette approche est qu’il est impératif de disposer d’experts en chacune des méthodes d’analyse de données du système tout au long de son cycle de vie. Le rôle des experts est de produire des connaissances nouvelles pour la mise à jour de la base des règles. Il en est de même pour les approches telles que celles de :

Une autre approche consiste en l’utilisation de méta-règles issues des études expérimentales comme support à la prédiction des algorithmes appropriés pour la résolution d’un problème donné [Brazdil et Soares, 2000]. En effet, ces auteurs étudient le classement de différents algorithmes d'induction. Ce classement est basé sur leur performance pendant leur exécution sur des ensembles de données répertoriés. [Petrak, 2000] présente une analyse persuasive de l'efficacité relative à l’emploi de sous échantillons de l’ensemble des données soumis à l’analyse pour prévoir quel algorithme apportera la plus faible erreur sur l’ensemble de données total. Pour StatLog [Michie et al, 1994], l’étude consiste à savoir quels algorithmes d'induction pourraient être employés dans des circonstances particulières données. Les résultats de ce projet sont constitués pour un ensemble de données et d’algorithmes, des algorithmes jugés applicables ou non applicables suivant leur performance. Avec ces différentes approches, se pose le problème de traitement des cas nouveaux. Les règles ou méta-règles issues d’expérimentations sont produites à l’initialisation du système. On assiste au développement de techniques nouvelles d’analyse de données. L’inconvénient majeur des différentes solutions présentées dans ce paragraphe réside dans le fait que sans connaissance préalable des performances des algorithmes récemment développés, la prédiction du meilleur algorithme pour un ensemble de données est faite par approximation (adaptation) aux solutions de cas traités. Il s’en suit une propagation de l’erreur de prédiction.

Il ressort de ce tour d’horizon que deux approches ont été utilisées pour l’acquisition des connaissances en vue de la prédiction des performances des algorithmes automatiques d’analyse de données. Les sous sections suivantes présentent plus explicitement chacune de ces approches.

Une solution potentielle à notre problème aurait été de procéder au codage de l’expertise d’un ou plusieurs spécialistes en méthodes d’analyse de données dans un système. Ce codage nécessite un recueil de connaissances. Il est à noter que l’acquisition de connaissances d’experts possède des inconvénients. En effet, il s’agit d’un processus difficile à réaliser. Les experts utilisent la plupart de temps des activités mentales dont ils ne sont même pas conscients.

Aussi, ne disposant pas d’experts en toutes les méthodes de classification de données pour une acquisition de connaissances, nous nous sommes appuyés sur d’autres stratégies. En effet, il ressort des projets tels que Statlog et Metal que les expériences réalisées sur un ensemble d’algorithmes et un ensemble de bases de données peuvent servir à la prédiction des performances des algorithmes.

Toute la difficulté à présent consiste à définir le mécanisme adéquat pour le codage et la maintenance de cette connaissance issue des expérimentations. De prime abord, le raisonnement à partir de cas s’y prête bien. Cette approche a déjà été utilisée à cet effet dans le cadre du projet Metal. Le raisonnement à partir de cas (RàPC) est une approche de solution utilisée en résolution de problèmes. Pour un nouveau problème à traiter (nouveau cas), les résultats des expériences passées (cas passés) sont adaptés et contribuent à sa résolution [Aamodt et Plaza, 1994].