4.2.2.3 La classification ascendante hiérarchique appliquée au corpus

La classification ascendante hiérarchique, appliquant aux mêmes données que l’ACP l’algorithme de Ward, a pour objet d’évaluer la ressemblance entre individus et/ou groupes d’individus, de proche en proche. Ainsi, les calculs visent à déterminer sur la base des 16 variables, les individus présentant le plus de valeurs proches deux à deux, puis à rechercher quel(s) individu(s) se rapproche(nt) le plus de ce premier sous-groupe... jusqu’à construire une classification de tous les individus du corpus, des plus semblables – statistiquement parlant – aux plus dissemblables. Là encore, l’intérêt de cette méthode réside dans la représentation graphique synthétique qui rend compte de ces calculs : il s’agit d’un arbre hiérarchique, généralement binaire, dont la figure ci-dessous présente le profil pour le corpus que nous étudions.

message URL dessin4.gif
Figure 5 : CAH – Arbre hiérarchique (algorithme de Ward)

Ce graphique se lit comme un arbre généalogique : moins on remonte dans l’arbre pour relier deux individus et plus leur degré de ’parenté’ est élevé. La hauteur à laquelle se trouvent reliés les éléments illustre leur niveau de ressemblance : il s’agit de l’indice de niveau de noeud. Plus cet indice est faible, plus les individus sont semblables. Il est donc utile, pour mener l’interprétation de l’arbre, de considérer la valeur de ces indices. On peut ainsi déterminer les partitions possibles de l’arbre en fonction des sauts d’indice les plus significatifs, isolant donc des sous-classes dissemblables.

Voyons ce qu’il en est de cette démarche analytique pour notre corpus.

Plusieurs opérateurs nous permettent d’effectuer la partition optimale de l’arbre. Le premier est donc celui qui a servi à la réalisation de l’arbre lui-même : l’indice de niveau de noeud. Un diagramme permet de visualiser l’ensemble de ces indices.

Sur celui-ci, on remarque 3 zones de décroissance rapide, déterminant des classes entre lesquelles des différences sont significatives :

A partir de ces trois possibilités, il s’agit d’évaluer quelle partition est non seulement optimale en termes statistiques, mais aussi et surtout la plus pertinente pour l’analyse.

On a recours pour cela à deux autres opérateurs, dépendants du premier : l’inertie intra et l’inertie inter classe. En effet, une partition n’est intéressante qu’à réunir des individus très proches (indice de niveau faible) tout en les distinguant le plus possible des autres (indice de niveau élevé). On calcule donc l’inertie intra (interne aux classes) et l’inertie inter (entre les classes) pour chaque partition, de façon à évaluer laquelle réunit à la fois l’inertie intra la plus faible et l’inertie inter la plus élevée, les deux additionnées correspondant à l’inertie totale des individus (comme en ACP, elle est ici de 16).

message URL graphique1.gif
Figure 6 : CAH – Diagramme des indices de niveau de noeuds

Voyons le tableau des inerties, page ci-contre.

message URL tab20.gif
Tableau 7 : CAH – s inter et intra relatives aux partitions

On remarque d’emblée que la partition en 7 classes répond le mieux aux exigences énoncées plus haut. Cependant, les classes 2 et 6 correspondent à un seul individu. Pour être optimale en termes statistiques, cette partition ne s’avère donc pas pertinente.

Pour ce qui est des deux autres, on peut noter que la partition en 4 classes restitue une plus grande part de l’inertie totale (rapport inertie inter / 16 : 68,61 %) que celle en 3 classes (60,83 %). Il apparaît que l’une et l’autre sont intéressantes, la première ayant un pouvoir de représentation plus élevé (4 cl.), la seconde un pouvoir de synthèse plus fort (3 cl.). Si l’on remarque que les sous-classes 1 et 2 sont les mêmes dans les deux partitions considérées, et que l’on compare le gain d’inertie entre les deux partitions sur le diagramme des indices de niveau, on ne peut que conclure à l’intérêt de la partition de l’arbre en 3 classes. En effet, au niveau de cette coupe, on passe d’un indice de 2,49 à un indice de 1,24 soit un gain d’inertie de 50,4 % par rapport au niveau précédent ; à celui des 4 classes, on note seulement un gain de 29,8 %, ce qui représente sur les 50,4 % un gain minime de 15,0 % seulement par rapport à la partition précédente.

Cette classification faite grâce à la CAH peut donc être présentée sous la forme de l’arbre hiérarchique tronqué, qui fait apparaître les liens de ressemblance entre individus ainsi que la partition du corpus en sous-classes :

message URL fig7.gif
Figure 7 : CAH – Arbre hiérarchique, classification hiérarchique en 3 partitions

Une dernière opération reste à mener afin que la CAH soit complète et que ses résultats puissent être confrontés à ceux de l’ACP : la détermination des variables qui caractérisent le mieux la classification, mais aussi chacune des classes obtenues par partition de l’arbre. C’est au moyen d’opérateurs que l’on appelle valeurs-tests qu’une analyse est menée sur les variables, sur la base des résultats de la classification hiérarchique. Les variables dont les valeurs-tests (en valeur absolue) sont les plus élevées – et l’indice de probabilité le plus faible – s’avèrent caractériser plus spécifiquement la classe en question. La synthèse de cette opération est fournie par le biais d’un tableau de caractérisation qui donne à voir le lien classe/variables.

Du tableau ci-contre, on déduit :

Il ne nous reste plus qu’à formuler nos conclusions au regard de l’interprétation simultanée du plan factoriel issu de l’ACP et de l’arbre hiérarchique issu de la CAH.