6.6 Réduction du nombre d’observations

Certains ensembles de données disposent d’un grand nombre d’attributs et/ou d’observations. Nos investigations en ce qui concerne la réduction des observations dans un ensemble de données consistent à agréger l’information contenue dans cet ensemble de données.

En effet, au lieu de traiter l’ensemble de données avec un grand nombre d’individus, l’idée est d’utiliser juste un échantillon S des individus de cet ensemble de données.

Considérons une collection d’observations {D ₁ , …, D _n }, à représenter graphiquement, qui nécessite aussi l’application des procédures de FVD. L’agrégation S de cette collection d’observations est une partition {S ₁ , …, S _k } de {D ₁ , …, D _n } et tout S _i est un cluster. Le clustering divise les observations d’un ensemble de données en groupes pour des besoins d’agrégation ou pour une amélioration de la compréhension de ces données. Le clustering qui a été utilisé en compression de données permet de retrouver très efficacement les plus proches voisins d’un point. Pour le clustering, l’ensemble de données initial est séparé en observations de même classe class (ID _i ). Ensuite, pour chaque ensemble ID _i , nous appliquons l’algorithme K-means [MacQueen, 1967] afin de retrouver les clusters ou groupes d’éléments disponibles dans ID _i . Typiquement, un algorithme de clustering permet de partitionner N entrées x ₁ , x ₂ , , x _N en k clusters. Les objets regroupés dans chaque groupe résultant sont similaires entre eux et différents des objets des autres groupes. Les algorithmes de clustering essayent de trouver une partition k qui maximise une fonction d’objectif en ce qui concerne la mesure de similarité. Par exemple, une fonction d’objectif peut trouver le cluster qui maximise la somme des similarités des objets de la même partition (cluster).

Cette approche a déjà été utilisée dans le cadre d’un prétraitement de grands ensembles de données avec des algorithmes de type « support vector machine (SVM)» par [Do et Poulet, 2005], [Poulet, 2004]. Les auteurs ont testé et validé cette approche sur de grands ensembles de données.