A . L’analyse Alceste

Le logiciel Alceste a été élaboré par Reinert (Reinert, 1987, 1999) qui en a très largement assuré la promotion dans un grand nombre d’études, plus récemment par Kalampalikis (Kalampalikis, 2003) Kalampalikis et Moscovici (Kalampalikis & Moscovici, 2005). Il est maintenant utilisé en sciences humaines de façon courante en psychologie sociale (Lahlou, 1998, Scharnitzky & Kalampalikis, 2007, Viaud et al., 2007, Gonin, 2008) comme en sociologie (Forgeau-Zerbib, 2008, Nemoz, 2010, Marpsat, 2010). Cette utilisation courante n’est pas sans questionner sur le risque de behaviorisme numérique contre lequel Buschini et Kalampalikis (Buschini & Kalampalikis, 2002) et Kalampalikis (Kalampalikis, 2003) mettent en garde : une telle analyse « automatique » n’est ni scientifique ni intelligente en elle-même, il s’agit de lui donner un sens dans l’ensemble de l’analyse textuelle du corpus à analyser.

Alceste procède à une analyse pragmatique du discours, ce qui veut dire qu’Alceste ne comprend pas les mots, il n’en saisit pas le sens. Ce logiciel procède par lemmatisation, c'est-à-dire qu’il remplace les mots par leur forme réduite : les verbes conjugués sont remplacés par leur infinitif, les pluriels par le singulier etc.

Trois formes de mots sont analysées par le logiciel : les formes analysables qui constituent le corpus en tant que tel, les mots outils qui sont des mots de liaison (marqueur spatial, temporel ou de relation), mais aussi les formes illustratives qui sont les variables du corpus et qui sont encodées sur les lignes étoilées. Alceste nécessite un toilettage particulier dont nous avons gardé un exemple en annexes (annexes, p. 164).

Ensuite, il faut retenir de la façon dont procède le logiciel pour procéder à cette analyse est qu’Alceste découpe le corpus de façon arbitraire en unités de contexte élémentaires, U.C.E, dont le logiciel Alceste analysera le contenu sur la base des cooccurrences. La formalisation de cette analyse est la définition de mondes lexicaux qui seront composés des lemmes qui y sont caractéristiques. Alceste procède par classification hiérarchique descendante : en partant du corpus entier, il divisera le corpus le plus important restant en deux jusqu’à trouver un monde lexical, ou une classe, homogène. Cette division s’opère sur le calcul d’un χ² qui permet de tester la distance des lemmes composant la classe. C’est ainsi que nous obtenons un dendogramme nous permettant d’analyser le degré de proximité et d’éloignement qu’il y a entre les différents mondes lexicaux obtenus.

Dans un premier temps de cette analyse, nous obtenons donc ce dendogramme accompagné par le détail des mondes lexicaux trouvés dans le corpus. Ces mondes lexicaux sont caractérisés par les mots ainsi que les variables qui les caractérisent. Le χ² nous permet d’appréhender le degré de signification de ces mots et de ces variables : plus il est important, au plus il est significatif. De plus Alceste précise quelle est la nature des mots qui composent ces classes, s’il s’agit plutôt de noms, de verbes ou d’adjectifs entre autres.

Par ailleurs, Alceste procède aussi à une Analyse Factorielle qui permet de projeter sur deux axes, vertical et horizontal, d’une part les mondes lexicaux, et d’autre part les variables. Cela permet de rendre compte du pourcentage de variance qui caractérise ces différents univers lexicaux ainsi que les variables.

L’utilisation de ce logiciel était pertinente dans la mesure où nous avions un très grand nombre de mots à étudier (5 associations lexicales, comprenant jusqu’à 5 mots, pour chacun des 237 sujets) et surtout que nous voulions comparer les réponses à deux de ces associations lexicales (le développement durable, et le développement durable dans la collectivité). Par ailleurs, ce logiciel met en exergue les variables qui sont caractéristiques des mondes lexicaux, ce qui nous intéressait aussi pour tester nos hypothèses.