6.2.1.1 Procédure de génération des sous-ensembles d’attributs

Le processus de génération de sous-ensembles d’attributs permet d’explorer un espace constitué de différentes combinaisons d’attributs disponibles dans l’ensemble de données. Si on considère N comme étant le nombre d’attributs de l'ensemble de données initial, afin d’obtenir une meilleure précision de l’algorithme de sélection d’attributs, il importe d’opérer une recherche exhaustive dans une combinaison de 2 N sous-ensembles d’attributs.

Lorsque N est grand, l’exploration exhaustive de sous-ensembles constitués de différentes combinaisons d’attributs est fastidieuse voire impossible. Des heuristiques et stratégies ont été définies pour une optimisation de cette étape. La recherche exhaustive peut alors par exemple être remplacée par une recherche de type heuristique ou une recherche de type aléatoire. Concrètement, les méthodes utilisées durant le processus de génération de sous-ensembles d’attributs peuvent être de type branch and bound, forward selection, backward elimination. Il existe aussi diverses améliorations de ces heuristiques, nous pouvons citer par exemple des méthodes de type séquentiel : on parle alors de sequential forward selection (SFS) ou de sequential backward selection (SBS), etc.

Les approches de génération aléatoires utilisent des probabilités et sélectionnent de manière aléatoire un sous-ensemble d’attributs de l’ensemble de données, des poids sont attribués à chaque variable sélectionnée.

La procédure de génération de sous-ensemble d’attributs aboutit à l’évaluation de ses attributs qui permet de mesurer leur pertinence par rapport au problème à résoudre.