Principe de la CAH

La méthode consiste à optimiser un critère visant à regrouper les individus dans des classes, chacune la plus homogène possible et, entre elles, les plus distinctes possible.

Le principe de l’algorithme consiste donc à créer, à chaque étape, une partition obtenue en agrégeant deux à deux les éléments les plus proches. On désignera alors par éléments des individus et les regroupements d’individus générés par l’algorithme. L’algorithme ne fournit pas une partition en « q » classes d’un ensemble de « n » individus mais une hiérarchie de partitions, qui se présente sous forme arborescente appelée dendrogramme( Figure 10) à n-1 partitions. La représentation graphique permet une interprétation visuelle rapide du nombre de classes existant effectivement dans la population. Chaque embranchement fournit une partition, plus l’embranchement est effectué au sommet, plus le nombre de classes est faible et plus la coupure se rapproche des racines, moins homogène sont les classes (confère Figure 10).

Figure 10 : Dendogramme

Le choix du nombre de classes à retenir est fonction de l’arborescence. Les embranchements correspondent à la perte d’inertie interclasse. Ainsi, on coupe l’arbre où «le saut» est le plus important, assurant une stabilité de la segmentation. Dans la figure ci-dessus la coupure peut se faire en 5, 4, 3, 2 classes

L’AFCM et la CAH sont des méthodes complémentaires.

L’AFCM est particulièrement adaptée à l’exploration de grands tableaux de données individuelles, comme ceux issus d’enquêtes qui cependant ne suffisent pas toujours à fournir une vue satisfaisante de l’ensemble des données. Non seulement les visualisations ne fournissent qu’une partie de l’information, mais elles sont parfois elles-mêmes trop complexes pour être interprétées aisément.

Dans ces circonstances, des techniques de classification peuvent compléter et nuancer les résultats d’analyses factorielles. La complémentarité entre analyse factorielle et classification permet de comprendre la structure des données et constitue une aide dans la phase d’interprétation des résultats