Université Lumière Lyon 2
Ecole Doctorale ECLIPS
Faculté des Lettres, Sciences du Langage et Arts
Département des Sciences du Langage : linguistique et phonétique
Analyse linguistique d'un corpus de communication en réseau : Étude morphosyntaxique.
Thèse de doctorat en Sciences du langage.
Dirigée par Gilbert PUECH
Présentée et soutenue publiquement le 1er septembre 2003
Devant un jury composé de :
Claire Blanche-BENVENISTE, Professeur de l’Université de Provence (rapporteur).
Catherine KERBRAT-ORECCHIONI, Professeur de l’Université Lumière Lyon 2.
Michel MARCOCCIA, Maître de Conférence à l’Université de Technologie de Troyes.
Gilbert PUECH, Professeur de l’Université Lumière Lyon 2.
Sylviane REMY, Professeur de l’Université Lumière Lyon 2.

REMERCIEMENTS

Je tiens à exprimer toute ma reconnaissance à tous les membres du laboratoire Dynamique du Langage où j'ai pu trouver un environnement de travail stimulant et performant.

Tout particulièrement je voudrais dire ma gratitude à Monsieur le professeur Gilbert Puech, qui malgré les fonctions prenantes qu'il assume a su me faire profiter de la qualité de sa réflexion et de ses savoirs.

Mes remerciements vont aussi à Frédérique Gayraud, et Catherine Kerbrat-Orecchioni pour leur relecture attentive.

Que soient ici également remerciés tous ceux qui m'ont techniquement permis de concevoir cet objet : les informaticiens du laboratoire Christian Fressard pour ses conseils avisés, François Pellegrino et Egidio Marsico pour les questions de sauvegarde, le SIR de Lyon2 et la division ERAD pour leur disponibilité, Monsieur Lamande pour les travaux de reprographie.

Enfin, et ce ne sont pas les moins méritants, ceux qui m'ont supportée dans les moments les meilleurs et les plus difficiles, quotidiennement, doivent savoir que je leur suis spécialement reconnaissante : Frédérique, Fanny, Egidio, Laurent, Olivier, Caroline, Christophe, Géraldine, Papa, Maman, Marianne, Mina, Emmanuel, Marie, Corine et son chat, Cristelle, Florence, et tant d'autres…

Pour Anna.

Introduction

L'avènement d'Internet a fait naître des moyens de communication qui reposent sur des dispositifs nouveaux. Ces derniers mettent en contact des humains proches ou distants, d'une même communauté linguistique ou de communautés linguistiques différentes, d'une même culture ou de cultures différentes…

Avec Internet se sont développés de nombreux champs de recherches, tant concernant la technologie que ses usages. Les Internet Studies florissent, et c'est sous ce label que des recherches issues des champs disciplinaires traditionnels se rassemblent. Sociologues, historiens, économistes, anthropologues, didacticiens, linguistes… octroient une part de leur intérêt à ce phénomène né en fin de siècle. Parmi ces disciplines, certaines, qui ont affaire à la langue et à son usage, se reconnaissent plus spécifiquement sous le label d'études en CMO 1 .

Le linguiste, en parallèle avec quelques préoccupations du commun des mortels des sociétés occidentales, s'enquiert de ce qui se joue dans ces dispositifs pour la langue et son usage.

L'étude de l'usage linguistique sur Internet, on ne s'en étonnera pas, se consacre essentiellement à l'anglais. Une bonne synthèse des travaux existants sur les différents dispositifs de communication d'Internet pour l'anglais se trouve dans Crystal (2001).

Les études sur d'autres langues sont peu nombreuses, et naissent souvent de préoccupations de linguistique appliquée à l'apprentissage des langues ou dans des situations de travail. On peut noter que ces perspectives travaillent aussi à la mise en place de situations artificielles sur le réseau pour l'apprentissage des langues et que nombre d'études portent sur les produits linguistiques qui en sont issus 2 .

Pour ce qui concerne le français, les études sur corpus naturel sont peu nombreuses 3 . Elles sont soit très générales 4 , soit très spécifiques. Anis et Luzzatti s'intéressent, par exemple, aux spécificités de l'écrit dans les dispositifs techniquement médiatés (minitel, IRC, etc.).

L'étude d'une langue est une entreprise considérable si on souhaite prendre en compte toutes ses dimensions. Cette recherche se propose d'examiner un certain nombre de paramètres linguistiques tels qu'ils sont mis en œuvre dans l'un de ces nouveaux moyens mis à la disposition des utilisateurs d'ordinateurs ayant accès à Internet : les IRC 5 . Ces paramètres ont été sélectionnés en fonction des contraintes imposées par le dispositif de façon à mesurer la portée de ces dernières sur les stratégies de mise en discours.

La conception traditionnelle de l'usage linguistique dégage deux aspects essentiels : sa fonction de communication et sa fonction de représentation. On peut affirmer que l'un ne va pas sans l'autre. Comment en effet communiquer si aucune représentation n'est formée ? Des routes, des couloirs communiquent, c'est-à-dire permettent le passage d'éléments. Il n'y a là nullement besoin de représentation. La notion de communication implique simplement qu'on considère au moins deux entités entre lesquelles circulent des éléments. La communication humaine nécessite quant à elle des représentations. Ce qui circule n'est en effet pas pleinement concret. Les êtres humains doivent être envisagés comme des entités dont le mode d'existence requiert un système de traitement de l'information. La communication humaine est donc affaire de perception et de traitement de l'information. Les éléments qui passent, certes, n'appellent pas nécessairement des représentations conscientes de la part de l'entité source. Il n'y a toutefois pas, dans ce cas, de communication sans traitement par l'entité réceptrice. D'une part ou de l'autre, des représentations doivent être engendrées. La communication humaine, ainsi que nous l'avons entendue jusqu'ici, ne se limite pas à l'usage linguistique, mais en ce qui concerne justement le langage, une grande part des éléments qui "circulent" est intentionnellement mise en œuvre. Il y a donc, pour la communication linguistique, mise en œuvre de représentations complexes de part et d'autre. Notre étude de ce moyen de communication récent ne se souciera donc pas seulement du versant communicationnel impliqué.

L'usage linguistique peut se réaliser à travers différents canaux, et on considère alors une opposition fondamentale entre l'oral et l'écrit. Cette opposition est dite générer des différences linguistiques à de nombreux niveaux. Certes, l'oral est premier ontogénétiquement et phylogénétiquement et cela en fait sans doute un moteur du changement linguistique. L'écrit ne se résume pourtant pas à un simple mode de représentation du langage parlé, il n'est pas de système d'écriture purement phonographique, d'une part, et d'autre part, les différentes situations de communication impliquant l'usage de l'écrit plutôt que l'oral ont des influences sur la construction des messages linguistiques.

Il ne s'agit pas de dire ici qu'il existe une stricte opposition entre oral et écrit. Certes, les réalités physiques impliquées ne sont pas les mêmes, les systèmes de production (appareil phonatoire, membre supérieur) et de réception (système auditif, système visuel) engagés sont différents et impliquent donc des systèmes de traitements de l'information différents et des contraintes temporelles différentes (au niveau de l'encodage et décodage du message linguistique). De même, tandis que le message linguistique oral ne se présente pas de façon pré-segmentée, l'écrit présente différents niveaux de segmentation.

La littérature témoigne souvent de situations prototypiques d'usage de l'oral et de l'écrit pour mieux fonder l'opposition. Ainsi l'oral tendrait vers le versant communicationnel, tandis que l'écrit tendrait vers le versant représentationnel. Cette première dimension d'opposition se base essentiellement sur une conception simplificatrice qui envisage l'oral comme un acte à plusieurs et l'écrit comme un acte individuel. Le dispositif justement envisagé ici permet une situation de communication en temps réel à plusieurs dont le code est l'écrit. Cela permet également de mettre en défaut l'analyse selon laquelle l'oral est spontané et l'écrit planifié.

La littérature relève que dans l'oral prototypique, le fait que la situation de communication soit partagée permet qu'une partie de l'information reste implicite. Il en découle l'observation inverse pour l'écrit. Ainsi l'oral appellerait plus de recours à la prise en compte du contexte par exemple pour identifier un référent, ou construire des liens non explicités entre propositions. Ainsi, l'éloignement en temps et en espace des locuteurs impliqués dans l'échange de messages linguistiques est le paramètre qui fait dire à Chafe (1982) 6 que l'écrit a un caractère détaché tandis que l'oral présente un caractère impliqué manifestant des différences du point de vue de la construction des messages linguistiques. Cet éloignement implique également pour l'écrit l'impossibilité d'un feed-back, imposant alors que les messages délivrés soient autosuffisants, et donc, que le locuteur-scripteur construise la représentation la plus juste possible des connaissances de l'allocutaire. Le lexique ainsi serait affecté par la différence de chenal. Il est commun de dire que la contrainte temporelle influe sur les choix lexicaux (fréquence des termes) et implique redondance et paraphrase pour l'oral, précision et réseaux sémantiques pour l'écrit. La syntaxe de l'oral serait plus souple que celle de l'écrit et manifesterait davantage de parataxe et de structures incomplètes. L'écrit présenterait une syntaxe plus rigoureuse et des phénomènes de subordination, de coordination et davantage d'indices de cohésion. De même, l'utilisation des temps verbaux serait différente à l'oral et à l'écrit. Ainsi, le passé simple n'appartiendrait pas au système de l'oral, qui présenterait essentiellement présent et passé composé. Le système des temps de l'écrit serait plus complexe. Les marques d'énonciation et déictiques sont également dits appartenir au système de l'oral. Enfin, les systèmes paralinguistiques de l'oral et de l'écrit, de natures évidemment différentes, véhiculeraient des informations de qualités différentes (émotions vs structure).

Ainsi, il s'agit évidemment d'une opposition théorique qui discrétise à outrance un continuum entre oral et écrit. À l'exception de ce qui concerne les différences liées aux paramètres strictement attachés au canal, toutes les différences relevées le sont pour les situations de communication impliquant l'usage de l'oral plutôt que de l'écrit et inversement. Biber (1998) montre, en effet, que plusieurs dimensions textuelles remplacent avantageusement les dichotomies traditionnelles.

Nous essaierons dans ce travail de caractériser l'usage linguistique dans les IRC, en observant dans un corpus naturel un inventaire de traits linguistiques.

La présentation de ce travail se fera en neuf chapitres. Le premier chapitre se donne pour but de dresser le paysage Internet, d'une part en ce qui concerne les protocoles de communication entre les machines et les dispositifs de communication humaine qu'ils autorisent, et d'autre part en ce qui concerne la connaissance de la situation – ou des situations – linguistique(s) d'Internet. Cette première vue d'ensemble se donne donc pour objectif majeur de situer le dispositif de communication retenu pour cette étude dans l'environnement dans lequel il s'inscrit et dans son contexte contemporain.

Le second chapitre est plus précisément consacré à la présentation de l'un des grands types de communication humaine médiatisée par ordinateur sur Internet : la communication interactive. L'adjectif ici choisi est peu satisfaisant dans la mesure où la communication implique toujours dans une plus ou moins large mesure de l'interaction – il existe des degrés d'interactivité. Ce que nous entendons donc par cet adjectif, ainsi que le font nombre de chercheurs et les vulgarisateurs, c'est une interaction explicite et directe. Parmi les dispositifs présentés au chapitre premier, nous développons, dans le chapitre 2, les spécificités propres à la communication interactive, en mettant en avant la spécificité des IRC. Dans un second temps, nous exposons en détail le dispositif qui génère l'objet de notre étude en relevant quelques-unes de ces caractéristiques techniques. Cela nous permet de montrer les points sur lesquels notre attention se portera aux chapitres suivants.

Les chapitres 3 et 4 ont essentiellement une vocation de présentation de la méthodologie appliquée au recueil et au traitement des corpus. Ainsi, le chapitre 3 présente-t-il la technique de collecte des corpus et son esprit déontologique. Le corpus recueilli présente des spécificités, nous le décrivons donc dans sa matérialité, d'un point de vue relativement technique permettant de mettre en perspective les traitements qui doivent lui être appliqués pour une étude linguistique. Ce chapitre présente l'avantage d'une totale transparence au sujet de l'objet recueilli et permet la reproduction de la méthodologie. Les premiers traitements décrits dans ce chapitre permettent, en outre, de catégoriser certains éléments du corpus et donc d'en donner une description quantitative. Cette dernière nous permet d'une part de comparer deux sous-ensembles du corpus, et d'autre part, d'établir certaines propriétés de nos corpus.

Le chapitre 4 présente des traitements de niveau linguistique mis en œuvre sur les corpus, notamment du point de vue du codage utilisé pour les différentes langues apparaissant dans le corpus, puis des procédures de standardisation et de lemmatisation pour le français. Ce chapitre est aussi l'occasion de présenter la procédure qui a été mise en œuvre pour l'anonymisation des corpus, le corpus naturel recueilli ne permettant pas d'obtenir l'autorisation des locuteurs. Enfin, une présentation rapide du logiciel retenu pour l'archivage et les traitements ultérieurs est proposée.

Après avoir présenté le dispositif, mis en abyme dans le contexte socioculturel dont il est issu, et les divers traitement qui ont été appliqués pour obtenir un objet formaté pour l'analyse, nous nous attacherons à décrire le code employé et ses spécificités. Le chapitre 5 a l'ambition de relever l'ensemble des phénomènes observés sur le français écrit dactylographié de nos corpus. Il s'agit là de mesurer l'écart à la norme et de tenter de comprendre le fonctionnement et le pourquoi de cet écart. Nous essaierons en effet d'évaluer ce qui se joue pour le code du point de vue de la stricte matérialité linguistique.

Le chapitre 6 se place à l'autre bout de l'échelle et présente les modalités de l'interaction. Les paramètres pris en compte pour cette analyse sont ceux qui sont couramment utilisés pour ce type d'analyse : il s'agit des paramètres identifiés depuis les premiers essais de modélisation de la communication humaine. Nous tentons de dégager les spécificités du dispositif qui impliquent une spécificité de l'interaction.

Les chapitres suivants entrent plus précisément dans l'analyse proprement linguistique. Les moyens lexicaux, puis les moyens syntaxiques mis en œuvre pour la production des messages sont exposés respectivement aux chapitres 7 et 8. En effet, parmi les paramètres linguistiques couramment évoqués pour établir des différences de registre, ou pour caractériser l'opposition écrit/oral, le lexique et la syntaxe sont essentiels. Enfin, le chapitre 9 étudie une dimension également relevée pour différencier des types de textes : la flexion verbale. Ce dernier chapitre sera l'occasion d'examiner les moyens d'expression de la temporalité afin de dresser un tableau des spécificités de nos corpus de ce point de vue. Nous trouverons également là le lieu de présenter un type d'unités conversationnelles particulier de nos corpus.

Notes
1.

Communication Médiatée par Ordinateur ; CMC dans la terminologie anglaise (Computer Mediated Communication). Cf. Biliographie établie par Marcoccia (2002)

2.

Cf. par ex. revue ALSIC (http://alsic.u-strasbg.fr/) ; Journal of Computer Assisted Language Learning (http://www.szp.swets.nl/szp/journals/ca.htm) ; etc.

3.

On peut toutefois penser que beaucoup d'études sur le français des réseaux restent dans l'ombre, les lieux de publication étant limités (il semble qu'un nombre en évolution de mémoires de maîtrise ou DEA s'y consacrent).

4.

Dejond (2002).

5.

Internet Relay Chat – Nous formulerons une description détaillée au Chapitre 2. Considérons pour l'instant qu'il s'agit d'un dispositif de communication sur Internet basé sur l'écrit dactylographié à échange synchrone.

6.

Cette opposition s'apparente à celle entre récit et discours postulée par Benveniste (1974).