4.2.1. Standardisation

Lorsqu'il s'agit de traiter un corpus oral, le linguiste se rend nécessairement à l'activité de transcription, c'est-à-dire la reproduction transformée des données acoustiques en données écrites. La transcription permet de passer d'un mode de représentation à un autre qui ne comporte pas les mêmes dimensions. L'avantage de la scripturalité est de rendre l'information globalement accessible, mais elle implique des choix, et plusieurs types de transcription peuvent être envisagés. Quel que soit le type retenu (orthographique, phonétique…), le chercheur se trouve devant les difficultés, liées à l'objet lui-même, que sont ses multiples dimensions. Selon les objectifs de l'étude, le système de transcription prendra en compte une sélection de ces dimensions. L'utilisation de la transcription phonétique est entreprise essentiellement pour les études qui se consacrent à des niveaux d'analyse concernant la matière phonique mais la plupart des études sur de grands corpus oraux lorsque les objectifs sont lexicaux, syntaxiques, discursifs, etc. se reportent à une transcription orthographique qui reçoit différents aménagements selon les besoins de l'étude. Le modèle de transcription 86 de l'équipe du GARS 87 à l'université de Provence est adapté aux recherches sur la syntaxe et à l'analyse discursive. Il utilise une transcription orthographique quand les données le permettent 88 .

Cette transcription est réalisée en orthographe standard, sans les "trucages orthographiques" qu'utilisent les écrivains 89 pour produire un effet d'oral.

‘Les grands dictionnaires servent de référence pour les mots de la langue, les noms propres, les interjections et les onomatopées. DELIC – Corpus du français parlé Conventions de transcription. 90

Dans les cas que le contexte ne permet pas d’éclaircir, certains éléments sont mis entre parenthèses: il(s) répare(nt) leur(s) maison(s). Lorsque deux transcriptions sont également plausibles, les deux sont conservées avec des marques particulières. Les notations phonétiques quand elles interviennent se produisent en insérant une note de bas de page. La ponctuation et les majuscules de début de phrases ne sont pas ajoutées.

Nos corpus sont de type écrit, cependant ils s'écartent de la norme écrite et présentent des phénomènes fréquemment considérés comme typiques de l'oral. Ils ne pouvaient donc être traités d'une façon conventionnelle pour les raisons mentionnées en introduction de ce chapitre. Notre but étant, d'une part de qualifier l'écart à la norme, et d'autre part d'étudier les moyens lexicaux et syntaxiques, il nous a fallu trouver un système de transcription qui permettent de mettre en parallèle les formes normées aux formes déviantes (sur le plan graphique seulement). Nous avons adapté les principes de transcription du GARS à nos corpus. Ce qui nous intéresse dans ce corpus, ce sont ses propriétés lexicales, syntaxiques, morphosyntaxiques et discursives. Ainsi que le préconise le GARS, notre normalisation – puisqu'il ne s'agit pas d'une transcription au sens strict du terme – consiste en une simple standardisation orthographique, sans toucher à la ponctuation, en utilisant les grands dictionnaires comme référence ainsi qu'ils sont utilisés par les chercheurs du GARS. Toutefois nos corpus présentent des néologismes, des emprunts, des noms propres, des interjections 91 , des sigles et des onomatopées qui ne se trouvent pas dans les dictionnaires, ainsi que les quelques exemples ci-dessous l'illustrent sommairement.

‘Extrait du Corpus F1’ ‘*PCJ: aaaaaaaarf PAD. change de nick où je te vire mdr...’ ‘Extrait du Corpus F5’ ‘*PAC: hummmmmmmmmmmmmmmmmmmmmmmm qui parle de sirop d'érable là :P j'y vais dans quelques jours miam miam menoummmmmmmmmmmm :P’

Il nous fallait pouvoir, dans ces cas aussi, repérer les différentes réalisations d'une même unité. Nous avons, pour les noms propres de personnes (et surnoms), rétabli la forme par laquelle les personnes désignées se dénomment elles-mêmes, et lorsque cela n'était pas possible, nous avons adopté la forme la plus usitée ou la forme la plus simple, et en dernier recours la première forme rencontrée 92 . Pour ce qui concerne les néologismes, emprunts, régionalismes, idiosyncrasies, nous avons standardisé à la forme la plus fréquente s'il s'en dégageait une, sinon à celle répondant le mieux à la norme orthographique. Les interjections et onomatopées en très grand nombre dans notre corpus qui n'apparaissent pas dans les dictionnaires ont subi le même traitement.

Ainsi, pour les exemples ci-dessus, on trouve nic, nick et nous avons standardisé nick puisqu'il s'agit de la forme la plus fréquente ; mdr, mdrrr, mdrr… ont été standardisés en mdr ; menoummmmmmmmmmmm a été standardisé menoum puisque nous avons pu dégager un phénomène de redoublement de caractères également sur des unités standards (cf. chapitre 5).

Ce codage a été effectué en sorte que l'énoncé effectif soit toujours déductible de la forme codée. De cette façon, les corpus à la suite de ces opérations contiennent à la fois l'énoncé effectif et sa normalisation.

À l'issue de ce traitement, nous avons récupéré dans une table toutes les opérations de normalisation et les avons analysées de façon à obtenir une information sur l'écart à la norme orthographique que présente le corpus et dont nous discuterons au chapitre 5.

Notes
86.

Cf. site web du groupe DEscription Linguistique Informatisée sur Corpus http://www.up.univ-mrs.fr/delic/corpus/index.html

87.

Groupe Aixois de Recherches en Syntaxe

88.

Le parler des jeunes enfants, de locuteurs affectés par des troubles du langage, de locuteurs maîtrisant mal le français reçoit préférentiellement des transcriptions phonétiques. Cf. Blanche-Benveniste (1997:28-29).

89.

Blanche-Benveniste (1991).

90.

Cf. site Web du groupe DEscription Linguistique Informatisée sur Corpus http://www.up.univ-mrs.fr/delic/corpus/index.html

91.

Il ne s'agit pas seulement de "particularités", puisque certaines interjections fréquentes ne se trouvent pas dans les dictionnaires.

92.

Notons que cette information n'est pas présentée dans le corps de la thèse pour les noms propres de participants (surnoms), puisqu'il a été procédé à l'anonymisation des corpus – cf. section 3 de ce chapitre.