Chapitre 4
Traitement des corpus

On l'aura compris, la présente étude se base sur un corpus de pratiques linguistiques spontanées. On attribue partiellement à Chomsky le désintérêt, manifesté par une partie de la communauté scientifique des linguistes, pour le recours aux corpus, des années soixante à quatre-vingts. Chomsky en effet formule un rejet de principe de l'utilisation des corpus au profit du questionnement de l'intuition du locuteur, principe adopté par une large part de la communauté. Sag & Wasow (1999:3), entre autres, affirment ainsi que :

‘"Tout locuteur normal de toute langue naturelle a acquis un ensemble immensément riche et systématique de connaissances inconscientes qui peut être exploré en consultant les jugements intuitifs des locuteurs" 67 .’

Or les locuteurs d'une même communauté linguistique (ou un même locuteur dans des situations différentes) n'ont pas toujours les mêmes usages. Le locuteur idéal de Chomsky n'a pas de réalité.

‘"Les langues manifestent de la variation et du changement et le constat de l'hétérogène est coextensif à la notion de langue." (Gadet, F. 1989:3). ’

Les linguistiques de corpus ou sur corpus cherchent à décrire les usages effectifs de la langue. Habert (1997) propose de distinguer deux attitudes pour la constitution de corpus et l'analyse qui en découle 68 . D'une part, la position qui consiste à tenter d'effacer les variations en constituant de gros corpus est celle des chercheurs qui souhaitent établir des descriptions de référence, l'idée étant que si on ne parvient pas à déterminer les caractéristiques de l'ensemble des productions langagières, le fait de récolter le maximum de données aboutira à faire émerger la part représentative. D'autre part, la position est de constituer des groupes de données selon des paramètres précis concernant leurs conditions de production et de réception. Cette démarche se constitue comme "linguistique de la variation" à l'exemple de Biber (1988). Quant à l'analyse, elle est fonction des objectifs de recherche, et souvent se contente pour les domaines les plus établis de la linguistique d'appliquer les catégories et concepts descriptifs usuels 69 .

Dans notre cas, il semblait bien évidemment difficile de procéder autrement qu'en récoltant des données, d'une part parce que les locuteurs qu'il aurait fallu interroger ne se déclarent pas toujours ouvertement comme utilisateurs de chat, et d'autre part le dispositif de communication étant complexe, il n'est pas dit que la représentation que ses utilisateurs en ont soit parfaitement en adéquation avec la réalité.

Nous avons exposé au chapitre précédent les traitements qui ont été appliqués aux corpus bruts. Ces derniers permettent d'une part de distinguer l'activité linguistique spontanée (lignes messages et actions) de l'activité générée par le système en contrepartie d'événements causés par les participants (entrées, sorties, changements de surnoms…).

Ce chapitre présente les traitements de base qui ont été appliqués à nos corpus. Ces derniers ont été réalisés pour répondre à plusieurs objectifs. Le premier est de séparer du reste ce qui dans les corpus est d'intérêt pour nos projets d'analyse, et de rendre le corpus lisible, afin d'étudier sa matérialité. Il s'agit également d'annoter le corpus avec les informations linguistiques utiles à nos analyses (morphologie, syntaxe et perspective discursive).

Dans un premier temps, nous exposerons la façon dont nous avons traité les corpus pour sélectionner ce qui fait l'objet de notre étude, c'est-à-dire les énoncés des locuteurs francophones. Cette section fait l'occasion de caractériser les corpus quant aux codes utilisés. Nous présentons ensuite de façon globale les caractéristiques des corpus qui ont rendu nécessaires des procédures de normalisation, dont nous exposons les principes – pour permettre la lemmatisation. Les procédures d'anonymisation qui ont été mises en place et leur justification sont ensuite expliquées. Enfin, il est procédé à une présentation rapide du logiciel de traitement de corpus retenu pour cette étude.

Notes
67.

"Every normal speaker of any natural language has acquired an immensely rich and systematic body of unconscious knowledge which can be investigated by consulting speakers intuitive judgments"

68.

Pour ce paragraphe nous nous inspirons de Habert et al.(1997) pp.143-159.

69.

Mondada (2001).