1. L’analyse factorielle des correspondances

1.1. Principes d’un outil descriptif

La méthode d’analyse factorielle des correspondances (AFC) que nous allons utiliser dans ce travail est un outil de mesure d’ordre descriptif. Elle s’applique à l’étude de tableaux à double entrée - ou tableaux de contingence - qui se composent de nombres positifs ou nuls. Son objet est précisément de rendre appréhendable d’emblée le maximum d’information contenue dans de tels tableaux. Plus exactement, le recours à cette méthode descriptive se révèle d’autant plus nécessaire que les tableaux sont de grande dimension et croisent un nombre de données important. L’AFC, d’où son nom, a donc pour fonction de rendre visibles les correspondances entre deux ensembles de données. Dans notre travail, il s’agit des quatre périodes rédactionnelles d’une part (variables, en colonne) et de formes lexicales retenues au préalable (individus, en ligne). C’est dans la mesure où ces deux blocs de données entrent en correspondance via les tris croisés à l’intérieur des tableaux (la forme x a été utilisée 0, 1, 2 ou n fois dans la période y) qu’il va être possible au final de mettre au jour la façon dont les formes sélectionnées se positionnent les unes par rapport aux autres dans l’espace des périodes rédactionnelles, et comment celles-ci se situent entre elles dans l’espace des formes. Dans l’esprit du concepteur de la méthode, cette représentation de “proximités” a pour but de tester l’indépendance des données d’un tableau. Autrement dit, l’AFC part du principe que les éléments d’un tableau sont susceptibles d’être dépendants les uns des autres²⁸¹.

L’enjeu sous-jacent à l’AFC - et que l’on retrouve du reste dans d’autres méthodes statistiques - va justement permettre d’évaluer ‘“la quantité d’une représentation de données multidimensionnelles en termes de maximisation de la quantité d’information obtenue par la réduction des données”’ ²⁸². Il ne faut pas perdre de vue en effet que la transcription des données initiales d’un tableau en leur projection - sous forme de “nuage” de points - dans un espace à plusieurs dimensions ne peut s’effectuer qu’au prix d’une perte d’information, l’espace de la feuille ne pouvant contenir au mieux que deux dimensions : un axe vertical et un axe horizontal. La seule façon de nous rendre perceptible la structure de ce “nuage” - composé de points-formes et de points-périodes dans ce qui nous occupe ici - va par conséquent consister (il n’y a de toute façon pas vraiment le choix...) à le projeter sur l’espace à deux dimensions de la surface plane de la feuille. Imaginons qu’à l’aide d’une aiguille à tricoter nous transpercions un ballon de rugby dans le sens de sa longueur. Nous pourrions dire, de façon imagée, que l’aiguille “absorbe” le maximum d’inertie du ballon par son centre en même temps qu’elle en indique la direction principale d’allongement. C’est cette logique qui est appliquée par l’AFC dans sa “captation” progressive de l’information contenue dans un tableau de départ :
‘La projection des points du nuage sur l’axe principal d’inertie donne le plus d’information sur leur distribution. Le reste de l’information se rassemble sur les autres axes d’inertie qui sont orthogonaux à l’axe principal et se croisent au centre de gravité du nuage. Ces axes sont appelés “axes factoriels”.²⁸³ ’
Le centre de gravité du nuage correspond aux profils-moyens des deux dimensions du tableau de départ (individus en ligne, variables en colonne). C’est à partir des totaux marginaux de ce tableau qu’est calculée une distance - dite du khi-2 - entre points-lignes et points-colonnes pris deux par deux. Il s’agit d’une pondération par renversement de la fréquence correspondant à chaque terme. Mais tandis que le calcul du khi-2 fait habituellement abstraction de toute donnée qui ne se trouve pas dans le tableau de contingence, Etienne Brunet - concepteur du logiciel Hyperbase que nous avons utilisé - part du principe que les fréquences absolues sont trop sujettes à l’effet de taille. Favorable à une pondération des données à partir de l’étendue du corpus, il propose pour ce faire le filtre de l’écart réduit ou celui du logarithme néperien, même s’il laisse le choix à l’utilisateur d’une analyse factorielle “traditionnelle”, basée sur les effectifs bruts :
‘L’éclairage qui souligne le mieux les reliefs est souvent celui qui utilise le filtre de l’écart réduit. Les logarithmes constituent un filtre plus neutre, qui corrige plus faiblement l’effet de taille. Si les données brutes sont traitées sans filtre (...), on peut craindre en effet que l’étendue variable des textes et le poids inégal des mots retenus ne précipitent au centre du graphique les éléments les plus lourds et les plus aptes à faire la loi.²⁸⁴ ’
Nous avons opté pour un traitement de nos données à l’aune de l’écart réduit, dans un souci de cohérence avec la mise au jour des formes spécifiques. On prendra garde cependant de ne pas confondre spécificités et AFC malgré l’utilisation commune de l’écart réduit. Tandis que les premières font “un sort individuel”, pour reprendre l’expression d’E. Brunet, à chacune des formes en vue d’une conclusion probabiliste, la seconde est une technique de description sans implication probabiliste. Si, comme on l’a vu, des fréquences théoriques trop faibles ne sont pas souhaitées dans le calcul des spécificités, une telle contrainte n’est pas de mise avec l’analyse factorielle. Nous avons donc retenu le seuil inférieur généralement admis d’une fréquence égale à 3²⁸⁵.

Ces considérations d’échelle mises à part, l’utilisation de l’AFC dans notre travail relève d’un processus commun à toutes les descriptions de tableau. On pourra ainsi dire qu’ici aussi la transformation d’un tableau de départ en un “nuage” de points est réalisée à raison d’une perte d’information, qu’il est toutefois possible de quantifier puisque l’on connaît pour chaque axe le pourcentage d’information extrait. Ce pourcentage de variance (ou d’inertie) est la “valeur propre” de chaque axe. Comme on l’a vu, le premier axe est celui qui extrait le maximum d’information d’un tableau de départ : sa valeur propre sera donc plus élevée que celle du deuxième axe perpendiculaire à lui par l’origine, celui-ci apportant un taux d’inertie supérieur au troisième, et ainsi de suite jusqu’à l’épuisement total de l’information initiale. Puisque le nombre d’axes factoriels est égal à la plus petite dimension du tableau moins une, nous pouvons dire que dans notre cas elle est de trois (le corpus ayant été subdivisé en quatre périodes rédactionnelles). Précisons au passage qu’avec une unité de moins, nous n’aurions pas été en mesure de présenter les analyses factorielles qui vont suivre²⁸⁶. Pour ce qui concerne notre étude, cela revient à dire que trois facteurs suffiront à “révéler” ce que le nuage de points contient. Il n’est pas nécessaire cependant de prendre en compte la totalité des axes successifs. Dans la pratique, on estime en effet comme suffisamment révélateur de l’information initiale un pourcentage cumulé des axes qui en représentent les deux tiers²⁸⁷. Dans tous les cas, nous nous limiterons aux deux premiers facteurs, leurs valeurs propres cumulées excédant 66 % d’inertie.

Notes

281.

Bien qu’il faille faire remonter le principe de l’analyse des correspondances au début du siècle (des psychologues ont alors cherché à extraire des facteurs sous-jacents à des tests), nous prenons appui ici sur les travaux de Jean-Paul Benzécri, amorcés en France au début des années 60. On se référera utilement à L’analyse des données, et en particulier au deuxième tome, consacré à l’analyse des correspondances (Jean-Paul Benzécri et alii, Paris, Dunod, 4ème éd. complétée d’un appendice, 1982, 632 p. [1ère éd. : 1973]). Pour une approche plus générale de la démarche poursuivie, cf. Histoire et préhistoire de l’analyse des données (Jean-Paul Benzécri, Paris, Dunod, 1982, 159 p.).

282.

Introduction à l’analyse factorielle des correspondances, Paris, Service du film de la recherche scientifique, 1980, p. 44.

283.

Denis Peschansky, Et pourtant ils tournent..., op. cit., p. 28.

284.

Etienne Brunet, “WEB et la statistique. L’exemple du mot Rome”, in Cahiers de lexicologie, 67, 1995-2, p. 85.

285.

Le calcul du khi-2 porte donc sur des données pondérées, de sorte qu’elles le sont doublement. Le fait que l’AFC ne sache traiter que des nombres positifs oblige en outre à transposer préalablement les écarts réduits dans une zone positive, le plus grand écart négatif étant aligné sur 0. Même si Jean-Paul Benzécri (cf. note 1 p. 134) se montre réticent devant toute pondération et, à plus forte raison, devant toute manipulation de translation, E. Brunet estime ces opérations nécessaires en vue d’atténuer l’effet de taille.

286.

“Une analyse factorielle sur trois textes est un non-sens puisque cette analyse est prévue précisément pour des espaces mathématiques de dimensions supérieures” (Simone Bonnafous, “Le vocabulaire de Metz, étude quantitative”, in Langages, 71, sept. 1983, p. 90).

287.

Introduction..., op. cit., p. 123.