6.2.2 Problèmes en sélection d’attributs significatifs pour la FVD

Rappelons brièvement qu’il existe une panoplie de méthodes de SA. A la lumière de ce qui précède, nous pouvons conclure qu’il existe plusieurs paramètres à fixer pour un algorithme de ce type (procédure de génération, fonction d’évaluation et critère d’arrêt). Comme nous l’avons mentionné antérieurement, il n’existe pas une méthode qui soit meilleure que toutes les autres dans tous les cas. De plus, lorsque le nombre d’attributs de l’ensemble de données à traiter est élevé, la charge cognitive des utilisateurs est grande, sachant qu’il y en aura qui ne pourront même pas réaliser leurs tâches de FVD dans ce contexte. En effet, un environnement de FVD peut être utilisé par des spécialistes du domaine des données et des spécialistes des méthodes d’analyse de données. Il est important d’observer que les différents utilisateurs peuvent être intéressés suivant les cas par les approches filtres et/ou les approches enveloppes. Dans tous les différents cas de figure, un outil d’aide à la sélection d’un sous-ensemble pertinent d’attributs devrait fournir des résultats assez précis. Mais comment retrouver et paramétrer l’algorithme qui suivant le problème à résoudre renverra les meilleurs sous-ensembles d’attributs ? Ceci tout en sachant que :

la visualisation de plus de quelques dizaines d’attributs rend souvent inutilisable la fouille visuelle de données,

un sous-ensemble optimal d'attributs n'est pas nécessairement unique,

il n’est pas possible de déterminer à priori quelle méthode de sélection de sous-ensemble d’attributs est meilleure que toutes les autres,

la décision d'un comité d'experts est généralement meilleure que la décision d'un seul expert.

Nous avons défini un nouvel algorithme de sélection de sélection d’attributs qui comme nous le verrons combine des décisions pondérées de plusieurs experts (des algorithmes de sélection de sous-ensembles d’attributs). Plus précisément, étant donné deux ou plusieurs méthodes de sélection de sous-ensembles pertinents d’attributs dans un ensemble de données, la question est de savoir comment l'on peut utiliser ces différentes méthodes pour fournir un résultat efficace. Afin de répondre à cette question, nous nous sommes appuyés sur la théorie du consensus qui peut être définie comme un procédé de prise de décision qui utilise entièrement les ressources d'un groupe. Le but est de combiner plusieurs distributions de probabilités en une seule probabilité dans l’optique de résumer des estimations de plusieurs experts. La théorie du consensus trouve l’une de ses justifications dans le fait qu’une décision prise par un groupe d’experts est meilleure en terme d’erreur quadratique moyenne que la décision d’un seul expert. Une telle démarche possède de nombreux avantages. En effet, statistiquement parlant, la consultation de plusieurs expertises lors de la résolution d’un problème est une façon subjective d’accroître la taille de l’échantillon dans une expérience, un ensemble d’experts permet d’obtenir plus d’information qu’un seul expert [Clemen et Winkler, 1999].

L’algorithme proposé « Consensus Theory Based Feature Selection » (CTBFS) reçoit en entrée des sous-ensembles d’attributs issus de chaque expertise. Une procédure intégrée permet de définir de façon visuelle et interactive des poids à affecter aux décisions de chaque expert. CTBFS retourne en sortie un sous-ensemble d’attributs représentant une agrégation des différents sous-ensembles d’attributs reçus en entrée.

Des représentations graphiques de l’ensemble de données constituées uniquement des attributs sélectionnés sont utilisées pour la définition interactive de poids à affecter aux différents experts qui interviennent dans la sélection d’attributs. Il s’agit ici d’un problème d’optimisation de l’affectation de poids aux experts. Dans un problème d'optimisation, il y a un espace des solutions et une fonction d'évaluation afin d'accéder à la qualité de la solution.

Les sections suivantes présentent la théorie du consensus, l'algorithme de sélection d’attributs basé sur cette théorie ainsi que le processus d’assignation visuelle de poids aux experts.