6.2.1 Sélection d’attributs significatifs

La sélection d’attributs permet de choisir un sous-ensemble de variables suffisant pour décrire un ensemble de données. C’est un processus permettant d’identifier et de retirer autant que possible les informations redondantes et non utiles de l’ensemble de données. Des techniques performantes [John et al., 1994], [Kira et Rendell, 1992], etc. de sélection de sous-ensembles d’attributs ont été développées afin de faire face à trois types de problèmes posés par les méthodes d’analyse de données :

  • la réduction du coût et la complexité des algorithmes d’apprentissage,
  • l’amélioration de la précision des modèles de données obtenus par un processus d’apprentissage,
  • l’amélioration de l’intelligibilité de ces modèles de données.

Conformément à l’état de l’art relatif à ce sujet, la sélection d’attributs dans un ensemble de données comprend une phase de génération de sous-ensembles d’attributs, une phase d’évaluation des attributs générés avec une fonction d’évaluation et un critère d’arrêt. La fonction d’évaluation de sous-ensembles d’attributs peut être un algorithme d’induction ou une mesure statistique. Cette fonction permet de distinguer deux types d’approches : des approches de type enveloppe [John et al., 1994] et des approches de type filtre [Kira et Rendell, 1992]. Les méthodes existantes de sélection d’attributs peuvent être adaptées pour une utilisation en FVD, mais comme nous le montrons dans la section 6.2.2.1, cette adaptation nécessite de résoudre quelques problèmes au préalable.