Chapitre 4. Présentation des données

1. Présentation du corpus

1.1. Constitution du corpus

‘Le rejet de principe, formulé par N. Chomsky dès 1957, du recours aux corpus au profit de l’appel à l’intuition du locuteur natif a relégué dans les limbes les travaux de linguistique quantitative et les études empiriques de données attestées. C’est, du moins, l’impression qui domine quand on se retourne sur les quarante dernières années de l’histoire de la linguistique. (Habert et al., 1997 : 8)’

Un autre courant de la linguistique anglo-saxonne garde un œil sur l’empirisme et créé une véritable « linguistique de corpus » faisant appel aux corpus électroniques (de grande taille) pour constituer des dictionnaires, des grammaires descriptives ou pour vérifier in vivo des réalisations supposées. Ce qui est nouveau à travers ce courant, ce n’est pas l’utilisation de corpus électroniques. Depuis les années soixante, par exemple, l’Institut National de la Langue Française (INaLF – CNRS) a constitué une base de données textuelles regroupant plus de 160 millions de mots, issus de textes français couvrant une période allant du XVIe siècle au XXe siècle. Ce fonds recueilli a notamment servi à la rédaction des dix-sept volumes du Trésor de la Langue Française. La base de données appelée Frantext est accessible et consultable en ligne.

‘La nouveauté réside dans l’enrichissement des corpus, l’accroissement de leur taille et dans l’accessibilité effective des corpus et des outils. (Habert et al., 1997 : 7)’

Les corpus sont désormais annotés (ou enrichis), c'est-à-dire qu’un certain nombre d’informations sont apportées sur les mots qui les composent. Les annotations peuvent être de nature différente : morphologique, syntaxique, sémantique, prosodique…

‘Cette utilisation de corpus annotés, de grande taille, variés et assortis d’outils d’exploration puissants, permet d’observer plus finement les phénomènes et remet en question une partie des postulats de la linguistique. (Habert et al., 1997 : 9)’

Ce qui est intéressant dans la linguistique de corpus, c’est qu’elle « prend le langage comme elle le trouve » (Sampson, 1994, cité par Habert et al., 1997 : 9). On peut alors, par exemple, étudier les choix de langues effectués par les locuteurs ainsi que tout ce qui peut être sujet à variation langagière.

Nous n’avons pas cherché à constituer un corpus de grande taille, mais plus simplement, à notre échelle, et selon notre objet d’étude, un corpus reflétant une situation particulière de contact de dialectes. En constituant ce corpus, le but de notre étude n’est pas de mesurer le degré de compétence ou de compréhension de chaque locuteur pour chaque langue ou chaque variante de langues, mais de comprendre comment se manifeste le bricolage interactif qui apparaît dans une telle situation de contact et tous les phénomènes qui sont liés aux changements de codes. Nous cherchons à savoir quels sont les locuteurs qui tentent de changer de codes, quels sont les éléments des systèmes linguistiques qui sont touchés par ces changements, mais également quels sont les phénomènes situationnels qui peuvent expliquer le recours à de telles stratégies discursives.

Les données authentiques recueillies pour constituer le corpus, qui servent de support à nos analyses, sont composées de plusieurs heures d’enregistrements numériques audio et/ou vidéo d’interactions de nature conversationnelle, se déroulant essentiellement lors de repas entre amis et/ou membres de la même famille et lors de célébrations religieuses. Faisant nous-même partie de la situation de communication, nous nous sommes trouvée confrontée à ce que Labov (1976) appelle le « paradoxe de l’observateur », c'est-à-dire observer sans être censé observer :

‘[…] le but de la recherche linguistique au sein de la communauté est de découvrir comment les gens parlent quand on ne les observe pas systématiquement ; mais la seule façon d’y parvenir est de les observer systématiquement. (Labov, 1976 : 290)’

Nous endossons ainsi deux rôles simultanément : celui de l’observateur-analyste et celui de participant aux conversations. Notre participation est plus ou moins importante selon les situations enregistrées, elle est dans tous les cas une des moins fréquentes (parmi tous les intervenants) ¹²⁶ , mais elle est bien réelle et inévitable (notamment lorsque les locuteurs s’adressent directement à nous). Toute non-réponse volontaire lors d’un adressage direct serait perçue par l’interlocuteur comme une forte agression. Par ailleurs, le fait d’assister aux enregistrements offre l’avantage de diminuer le nombre d’ambiguïtés qui auraient pu apparaître lors d’enregistrements auxquels l’observateur n’aurait pas participé :

‘Analyser des conversations auxquelles on a participé présente le gros avantage de réduire la part de reconstitution des données manquantes. Le fait d’avoir accès à certains éléments de l’histoire des interlocuteurs permet de ne pas recourir à des hypothèses pour reconstituer des implicites. (Traverso, 1996 : 3)’

Notes

126.

Notre faible participation s’explique par les locuteurs en présence. Par exemple, dans les corpus Pâques et Prêtre, les invités s’adressent essentiellement au couple Cathy-Martin. En revanche, dans le corpus Anna, nos interventions sont plus fréquentes étant donné qu’il s’agit d’une conversation entre membres de la même famille et de la même génération (cousines et tante).