4-1-2- Aparté épistémologique et méthodologique

Par l’intermédiaire de questionnaires à question ouvertes ou d’entretiens semi-directifs, le corpus textuel recueilli tout au long de ce travail est notamment analysé par la méthode d’analyse des co-occurrence, grâce au logiciel Alceste43. Ce logiciel, développé par Reinert, repose sur une méthode de statistique textuelle, qui découpe le corpus, en adoptant les principes d’analyse de données développés par Benzecri et Harris (Reinert, 1993 ; 1999). Le principe de cette méthode d’analyse : « n’est pas le calcul du sens, mais l’organisation topique du discours à travers la mise en évidence des "mondes lexicaux" » (Kalampalikis, 2003, p. 151). Reinert (1993), en considérant « le vocabulaire d’un énoncé particulier comme une trace pertinente […] d’un lieu référentiel et d’une activité cohérente du sujet-énonciateur » définit les « mondes lexicaux » comme « les traces les plus prégnantes de ces activités dans le lexique » (p. 11). Kalampalikis évoque le travail d’un archéologue pour illustrer cette recherche des « mondes lexicaux » : « A la manière des archéologues qui utilisent des vues aériennes de l’espace pour cartographier la région des fouilles leur permettant de découvrir des fragments significatifs d’une vie collective passée, nous sommes en train de circonscrire l’espace de notre corpus lexical et de regrouper des objets et des lieux usuels, avant de tenter d’en donner une description précise et une interprétation fine. » (2003, p. 152)

Le principe est, par l’intermédiaire des cooccurrences du corpus, de dégager la structure et l’organisation du discours. Cependant, il ne faut pas perdre de vue que le discours, du fait de sa complexité, ne peut pas être « décodé ». C’est ce que soulignaient Kalampalikis et Buschini (2002) avec un autre logiciel, Prospero, et la notion de « béhaviorisme numérique » (Buschini et Kalampalikis, 2002). A titre d’exemple, un logiciel ne peut pas accéder à toutes les subtilités du langage, comme peuvent l’être les figures de style. C’est pour cette raison que l’utilisation d’un logiciel ne dispense pas d’une analyse complémentaire et pragmatique (Kalampalikis et Moscovici, 2005).

Le logiciel en lui-même fonctionne par étapes dans l’analyse, en effectuant une « Classification Descendante Hiérarchique » (CDH), c’est-à-dire qu’il fractionne le texte de manière successive, afin d’extraire des Classes44 de mots représentatives. Ensuite, le logiciel extrait des « phrases », qui sont nommées « unités de contexte » (u.c.), en fonction du vocabulaire présent dans ces unités de contexte. Il faut distinguer deux types d’unités de contexte :

  • les « unités de contexte initiales » (u.c.i.), qui sont les variables définies au préalable dans la saisie des données,
  • les « unités de contexte élémentaires » (u.c.e.), qui correspondent aux « phrases » que le logiciel a sélectionnées pour procéder à l’analyse.

L’analyse se déroule en quatre étapes, elles-mêmes sous divisées, qui permettent le découpage du corpus en u.c.e.. Ces dernières sont ensuite rapprochées entre elles lorsqu’elles contiennent les mêmes formes lexicales, d’abord en deux Classes les plus opposées possible. La plus importante des deux Classes subit le même processus de découpage, et ainsi de suite.

L’étape A consiste à trier, grâce notamment aux dictionnaires les mots pleins (verbes, noms, adjectifs…) et les mots outils (articles, prépositions…) et à la lemmatisation 45. L’étape B est le découpage en u.c.e. qui vont produire par regroupements les Classes par la Classification Descendante Hiérarchique, grâce à la métrique du Chi2. L’étape C est le résultat classifié de l’étape B, avec le vocabulaire spécifique de chaque Classe, les énoncés caractéristiques, les formes les plus fréquentes, etc. C’est également à cette étape qu’est réalisée une Analyse Factorielle des Correspondances, permettant une visualisation à la fois des systèmes d’opposition, mais également des grands rapports de force entre les différentes Classes dégagées. Enfin l’étape D propose des calculs complémentaires et notamment une Classification Ascendante Hiérarchique, permettant d’appréhender les liens de proximité entre les mots représentatifs d’une Classe, figurés par un dendogramme croisant à la fois le Chi2 de chaque terme et les liens de proximité dans le discours. .

Nous reviendrons plus en détail sur ces points au fil des différentes analyses réalisées par l’intermédiaire de cette méthode d’analyse.

Notes
43.

ALCESTE pour Analyse des Lexèmes Cooccurents dans les Enoncés Simples d’un Texte, Version 4.9.

44.

Pour éviter toute confusion entre la « classe » lieu dans l’école, et les « Classes » terminologie issue du logiciel Alceste, nous utiliserons pour ces dernières une majuscule.

45.

Voici quelques exemples de la lemmatisation tirés de l’analyse qui va suivre : « travail< : travail, travailler » ; « mettre. : mettant, mettent, mettre » ; « baill+er : baille, baillement, baillements, baillent, bailler »