B. les transcriptions

Le début du travail sur les productions authentiques a fait surgir un certain nombre de difficultés dont la principale concernait le moyen d’aborder et d’appréhender cette réalité orale qui semblait tellement fugace. Même si les enregistrements audio constituaient le matériau de référence, il devenait impossible d’en réserver l’usage à leur écoute. Seule une trace écrite pouvait autoriser le travail d’analyse entrepris. La nécessité de faire seconder les enregistrements audio des transcriptions sur papier des productions orales avait déjà été notée par Silverman :

‘CA’s [Conversation Analysis] concern with the sequential organization of talk means that it needs precise transcriptions of such (commonsensically) trivial matters as overlapping talk and length of pauses. Close, repeated listenings to recordings often reveal previously unnoted recurring features of the organization of talk (2001 : 166, souligné par l’auteur).’

Il s’avérait de plus indispensable de citer quelques extraits d’interactions afin d’illustrer ou d’éclaircir certains passages d’analyse. Comment dès lors rendre accessible aux lecteurs les dires des participants aux interactions ainsi que leurs caractéristiques, tout en respectant l’anonymat en vigueur dans ce type d’étude. À cela venaient également se greffer des problèmes juridiques liés aux conditions de recueil des corpus, puisqu’il n’avait pas été possible de solliciter l’accord des cliagers pour utiliser leurs voix et leurs propos 52 .

Dès l’instant où il a fallu envisager une transcription des données audio sur papier, deux problèmes majeurs sont apparus :

1 – La « fidélité à la chose parlée »

La première de ces difficultés concerne la « fidélité à la chose parlée » (Blanche-Benveniste et Jeanjean, 1987 : 115) car il est très difficile de maintenir dans une représentation écrite certaines caractéristiques de l’oral.

2 – La lisibilité du document.

La seconde difficulté a rapport à la lisibilité du document écrit puisqu’il est impossible de rendre compte de propos oraux en restant dans des habitudes d’écriture et de lecture établies pour l’écrit. Envisagée dans un premier temps, la transcription phonétique, offrant l’avantage d’un accès aux faits d’oralité en même temps direct et proche de leur réalité car elle permet de ne pas avoir à « choisir l’orthographe de la langue dans laquelle on veut transcrire et donc de ne pas l’attribuer à une langue précise » (Mondada, 2000b : 140), a néanmoins été écartée pour les raisons suivantes :

Tous les inconvénients de la transcription phonétique ont conduit à son abandon. J’ai finalement opté en faveur d’une transcription en orthographe adaptée, transcription critiquée par Blanche-Benveniste et Jeanjean, principalement parce qu’elle impose le recours à des « trucages orthographiques » (1987 : 130).

‘Les trucages consistent essentiellement en petites transformations de l’orthographe standard comme l’usage des contractions, qui notent une voyelle, une consonne ou une syllabe en moins ; ou l’usage des mots attachés. On trouve aussi des allongements de voyelles et de consonnes, marqués par des redoublements de lettres (ibid.).’

Les principales modifications apportées à la représentation graphique standard concernent essentiellement (i) une adaptation du système orthographique standard, et (ii) un usage des signes de ponctuation dépourvus de leur signification dans la langue écrite orthographiée.

Chaque transcription est précédée de la date et du lieu de l’enregistrement, puis d’une rapide situation des interactants d’un point de vue personnel indiquant un âge approximatif et les informations accessibles qui semblaient pertinentes dans le cadre de l’étude. Afin d’assurer l’anonymat des participants, tous les noms et prénoms figurant dans les corpus ont été remplacés par des équivalents fréquents tels que Martin ou Dupond pour les noms de famille ; Pierre, Joseph ou Jean pour les prénoms masculins ; et Pierrette, Paulette ou Marinette pour les prénoms féminins. Les adresses prennent toutes le nom des Tisserands : rue des Tisserands, lieux-dit « Les Tisserands », résidence « Les Tisserands », etc. Seuls les noms de ville et dates de naissance n’ont pas été modifiés car ils permettent de différencier les participants lorsque cela s’avère nécessaire. Les nombres ont été écrits en toutes lettres, ainsi que le préconise Blanche-Benveniste (1997 : 34).

Les transcriptions suivent toutes le même format avec une présentation en deux colonnes :

J’ai adopté le système de transcription de l’oral de Jefferson 53 (Sacks, Schegloff & Jefferson, 1974 : 731-734) repris et adapté par Traverso (1996 : 25-27, et 1997b : 1-11). De nombreux chercheurs utilisent ce système de transcription car il présente un certain nombre d’avantages. Il semble inutile d’énumérer les qualités offertes par ce système dans la mesure où de nombreux auteurs s’en sont déjà chargés. Citons simplement ces quelques mots :

‘This system is particularly sensitive to the sequential order of turns, to gaps, pauses and overlaps, and to properties of turn delivery such as emphasis, prolonged vowels, and stretches of louder, softer, faster or slower talk relative to the surrounding talk (Baker, Emmison & Firth, cités par McHoul & Rapley, 2001: xiii).’

Conventions de transcription

Rythmes
L’apostrophe signale la chute d’un ou de plusieurs son(s) à l’intérieur d’un même mot.
( ) Les caractères notés entre parenthèses signalent des éléments qui n’ont pas été prononcés et qui sont destinés à faciliter la lecture.
: Les deux points signalent l’allongement d’un son. Un allongement plus important est marqué par deux fois deux points. Un allongement très important est marqué par trois fois deux points.
- Le tiret indique un mot interrompu brutalement par le locuteur.
[ Les crochets indiquent le chevauchement (début du tour interrupteur, et emplacement de l’interruption dans le tour en cours 54 ).
= Le signe égal indique un enchaînement immédiat entre deux tours.
Intonations
Une flèche montante indique une intonation montante.
Une flèche descendante indique une intonation descendante.
jamais Les syllabes ou mots notés en petites capitales indiquent une insistance, par le biais d’une montée en intensité par exemple.
Silences et pauses
(silence 3’’) Par silence, on entend les pauses inter-tours. Dans le présent corpus, elles ne sont signalées que si elles sont supérieures à une seconde.
(pause 3’’) Par pause, on entend les pauses intra-tours. Dans le présent corpus, elles ne sont signalées sous cette forme que si elles sont supérieures à une seconde.
... Trois points qui se suivent signalent une pause intra-tour inférieure à une seconde qui n’a pas été chronométrée de façon plus précise.
Productions vocales
(rires)
(sourire)
Les rires et les sourires sont signalés entre parenthèses, en petites capitales, ainsi que les commentaires sur les voix ou les tons de voix.
Données comportementales
(( )) Les indications de comportements non verbaux sont notées entre doubles parenthèses et en italiques.
Passages inaudibles
(inaudible) Les mots ou passages inaudibles sont notés de la manière indiquée ci-contre.

Dans un souci de « fidélité à la chose parlée », j’ai choisi de rendre compte des liaisons, qu’elles soient réelles ou inventées, comme dans l’exemple ci-dessous.

Corpus tabac-presse : interaction n°40

(12) Client n°56 : donne-moi z’en… ben trois pareils

Restait à résoudre le problème des « e » muets. À la suite de Leroy, il semble utile de rappeler que

‘toute prononciation d’un « e » final est à considérer comme a-normale et par conséquent nous la marquerons par un trait soulignant le « e » en question ; dans le cas contraire c’est-à-dire lorsque le « e » n’a pas été prononcé, ce qui est le cas le plus fréquent, nous nous en tiendrons à la graphie traditionnelle (1985 : 13).’

L’adoption de ce système de notation semble faciliter la lecture des transcriptions. Certains transcripteurs utilisent l’apostrophe – que je réserve pour signaler l’élision d’un ou de plusieurs son(s) à l’intérieur d’un même mot – pour remplacer le « e » final non prononcé. Ce choix n’est pas sans soulever le problème de norme à l’intérieur et en final de mots qui est loin d’être résolu. En effet, noter « au r’voir » présuppose un élément non marqué à la fois dans la situation et dans la région : il implique l’usage du français standard et non du français méridional. D’autres systèmes pourraient transcrire le même mot par « au revoir » ou encore « au revoir ». Les règles de prononciation sont si complexes en raison du présupposé de l’existence d’une forme marquée et d’une forme non marquée qu’elles contraignent l’analyste à faire un choix. Ainsi, je noterai

Cette notation évitera de rencontrer des choses telles que : « j’ » pour « je » ou « madam’ » pour « madame », et rendra la lecture des transcriptions plus aisée.

À partir du moment où les transcriptions ont commencé à être mises sur papier, le problème de l’objectivité du transcripteur a surgi. Il semble évident qu’il n’y a pas d’objectivité possible de la part du transcripteur, principalement du fait que la personnalité du transcripteur marque inéluctablement la transcription. D’aucuns se demanderont de quelle manière. Il est en réalité beaucoup plus difficile qu’on ne peut l’imaginer de transcrire des enregistrements de sa propre langue. S’il est aisé d’écouter parler les gens dans la vie quotidienne, cela devient un exercice complexe dès lors qu’on se place dans le cadre de l’activité systématique d’observation. Blanche-Benveniste et Jeanjean rapportent que

‘la difficulté de l’entreprise se révèle de façon spectaculaire lorsqu’on demande à plusieurs transcripteurs d’écouter un même enregistrement ; on s’aperçoit que leurs écoutes peuvent diverger de façon considérable (1987 : 93).’

Il se peut que certaines des difficultés d’écoute viennent de l’instrument d’observation, c’est-à-dire de l’enregistrement lui-même ; mais la plupart trouvent leur origine dans le fait que ce ne sont pas les mêmes données qui parviennent à nos oreilles. Mertens explique ce phénomène dans une lettre personnelle écrite en 1984.

‘La plupart des enregistrements sont monophoniques, c’est-à-dire qu’ils sont faits avec un seul micro, alors qu’on a deux oreilles, ce qui explique qu’on soit capable de dire de quel côté se situe le locuteur, d’où vient le son (cité par Blanche-Benveniste et Jeanjean, 1987 : 94).’

La conséquence principale est que

‘l’information quant à la direction d’où vient le son est analysée par le cerveau. On est capable de « fixer » l’attention sur des sons qui viennent d’un côté et de ne pas écouter ou de ne pas entendre ceux qui viennent d’ailleurs. Toute cette information est perdue dans l’enregistrement monophonique. Il en reste très peu dans l’enregistrement stéréo (ibid.).’

C’est donc la perte de cette hiérarchisation des sons qui rend le travail du transcripteur si ardu. Dans les interactions des corpus faisant l’objet de transcriptions, il y a quantité de bruits que les participants n’ont pas ou peu entendu dans la situation réelle, et qu’on entend très fort à l’écoute de l’enregistrement puisque tout est sur le même plan. C’est principalement le cas des bruits de pièces de monnaie dans les séquences de paiement, ou des bruits des imprimantes. C’est en grande partie à ce genre de bruits que l’on doit les passages inaudibles.

La transcription s’est avérée longue et délicate car j’avais tendance à être victime de certains phénomènes de reconstruction. Étant donné que je souhaitais utiliser les transcriptions pour illustrer certains passage de l’analyse, il me fallait être aussi fidèle que possible aux bandes sonores, et donc aussi objective que possible. Labrie, cité par Blanche-Benveniste et Jeanjean (1987 : 101), recommande d’avoir recours à plusieurs transcripteurs afin de minimiser les erreurs d’interprétation. Il ne nous a pas été possible de faire appel à d’autres transcripteurs, mais les transcriptions ont été vérifiées à plusieurs reprises. Certaines ont d’ailleurs été retouchées, remaniées ou parfaites, voire corrigées au fil des écoutes.

De manière à limiter l’influence que peut avoir la perception du transcripteur sur la transcription, Leroy fait la recommandation suivante :

‘Il est bien évidemment souhaitable que l’utilisateur du document [la transcription écrite] soit celui qui a procédé à la transcription et même également celui qui a procédé à l’enregistrement (1985 : 8).’

C’est bien sûr le cas des interactions figurant dans les corpus puisqu’elles ont été enregistrées et transcrites par moi-même. Aussi rassurant que cela puisse être quant à l’objectivité dont j’ai pu faire preuve dans l’établissement de ces transcriptions, il convient tout de même d’attirer l’attention sur les problèmes de subjectivité rencontrés : les « hallucinations auditives » (Stubbs, cité par Blanche-Benveniste et Jeanjean, 1987 : 6) et les phénomènes de reconstruction. Il est en effet très difficile de coller à la bande audio sans être tenté d’entendre des mots, des morphèmes ou des phonèmes qui ne sont pas là, ou au contraire d’en oublier. Les problèmes rencontrés lors de la transcription sont les suivants :

1 – La fréquence des « euh » et des « ben ».

Les « euh » et les « ben » ne sont pas faciles à entendre car personne ne prête vraiment attention à eux dans la conversation courante. Le repérage de toutes les occurrences a donc nécessité un gros effort d’attention, surtout lorsqu’il y en a plusieurs dans un même tour de parole 55 .

Corpus Crédit Agricole : interaction n°20

(47) Client n°20 : le chèque… ben j’ai donné la référence l’aut(re) jour… c’est le:::… le::: comment i z’appellent ça… le:: (pause 2’’) le centre euh:… le Centre d’Équitation Français (pause 4’’) voilà (pause 2’’) hein donc euh… je sais pas en rapport si faut faire des courriers pour voir s’il a été débité euh:: (pause 2’’) on le f’ra hein… hein bon… c’est un p’tit peu embêtant pa’ce que ça fait déjà quat(re) mois

2 – La présence éventuelle du morphème de négation « ne ».

Le contexte immédiat de la place syntaxique à laquelle on attendrait le morphème de négation « ne » ne permet pas toujours d’affirmer sa présence ou son absence. Une grande vigilance s’est imposée car j’ai souvent été tentée d’inclure le morphème « ne » à la transcription pour compléter la négation alors que rien ne permettait d’établir clairement son occurrence.

Corpus mairie : interaction n°20

(48) Guichetière n°2 : voilà… oui mais les z’organismes sont au courant qu’on en fait plus

La fréquence de l’absence du morphème « ne » tend à prouver, qu’au moins à l’oral, le morphème de négation n’est plus « ne » car il est totalement facultatif.

3 – La difficulté à transcrire avec le système orthographique un phonème prononcé de manière isolée.

C’est le plus souvent sur les hésitations que l’on rencontre ce genre de phénomènes. Le locuteur commence à prononcer un mot puis un autre lui vient à l’esprit. Il s’arrête alors brutalement. Le phonème prononcé n’est pas toujours aisé à transcrire, comme dans l’exemple suivant où j’ai longtemps hésité entre C, K ou QU.

Corpus Mairie : interaction n°26

(24) Guichetier n°2 : vous le gardez jusqu’à ce que c- vous r’ceviez vot(re) carte d’électeur

4 – Les mots inachevés.

Certains mots inachevés par le locuteur sont délicats à transcrire à cause du système orthographique. Dans l’extrait suivant, par exemple, je percevais à l’oral que le [u] de « vous » était abrégé, mais je ne savais pas de quelle manière rendre compte de ce phénomène autrement qu’en supprimant le « s » de « vous ».

Corpus Mairie : interaction n°27

(17) Guichetier n°1 : ben vou- vous z’avez une carte d’identité

5 – La prononciation de « il » difficile à classer comme ayant été prononcé « i » ou « il ». Parfois, le cotexte immédiat du « il » ne permet pas de dire s’il a été prononcé « i » ou « il ».

Corpus mairie : interaction n°27

(22) Guichetier n°1 : puisque il leur faut une nationalité française… alors euh

Les tours de parole ont été numérotés par commodité, mais il subsiste un problème au niveau de l’alternance des prises de parole 56 . Tout dilogue se construit autour d’un système d’alternance de la parole (turn-taking), chacun des interlocuteurs prenant la parole à son tour (Sacks, Schegloff & Jefferson, 1978 57 ) afin d’éviter les chevauchements : « not more than one party should speak at a time » (Sacks, 1995 : 633, Lecture 2, Fall 1967). Il pourrait donc sembler aisé de compter et numéroter les tours de parole. Cette tâche est néanmoins compliquée par le fait qu’aux propos continus du locuteur peuvent se superposer « des interventions mais non des interruptions ou des prises de paroles réelles » (Cosnier, 1988 : 176). Citons un exemple :

Corpus librairie-papeterie-presse : interaction n° 3

(13) Cliente n°4 : elle est vieille... c’est mon mari qui l’avait payée ... alors mon mari est mort en 76... alors vous z’avez qu’à vous rend(re) compte
(14) Vendeuse : oui
(15) Cliente n°4 : j’ai soin des z’affaires... moi
(16) Vendeuse : ben: oui
(17) Cliente n°4 : mon mari m’y disait... i me dit ben t’es la seule... t’as soin de tes z’affaires... j’ai des robes qui sont de m- qui sont vieux comme celle-ci
(18) Vendeuse : mhm:
(19) Cliente n°4 : oh ben moi... j’aime bien garder mes z’affaires
(20) Vendeuse : oh ben oui... y a des gens qui sont bien conservateurs... hein
(21) Cliente n°4 : enfin c’est comme ça

Dans cet extrait, de (13) à (19), la cliagère poursuit un seul et même tour de parole ponctué plus qu’interrompu par les interventions de la commagente, interventions qui prennent ici la forme de régulateurs 58 . Les régulateurs regroupent des activités – verbale, vocale ou mimo-gestuelle – qui permettent aux allocutaires d’appuyer la production du tour de parole du locuteur. Même si la distinction entre tour de parole et régulateur n’est pas toujours aisée, Charaudeau et Manigueneau (2002 : 496) proposent quelques critères de reconnaissance pour faciliter l’identification du régulateur : sa brièveté, sa localisation fréquente en chevauchement sur le tour du locuteur, et le fait qu’il soit souvent faiblement articulé et produit avec une intensité vocale réduite.

Seuls les régulateurs vocaux sont pris en compte dans l’extrait proposé ci-dessus. Ces productions vocales de la commagente peuvent soit manifester son accord avec les propos de la cliagère, soit, ce qui semble être davantage le cas de l’exemple cité, marquer sa participation active (par opposition à l’écoute passive), son implication dans l’échange communicatif. Cette remarque conduit à définir le tour de parole comme

‘un ensemble textuel cohérent situé entre des ensembles analogues proférés par le partenaire, et en dépit d’éventuelles interactions sonores ou gestuelles qui ne rompent pas le développement en cours (même s’ils l’infléchissent), (Cosnier, 1989 : 240).’

Toutefois, dans cette étude, on entendra par « tour de parole » le laps de temps durant lequel un des participants reste locuteur, c’est-à-dire jusqu’à ce qu’un autre participant parle à sa place, qu’il y soit ou non autorisé. Ceci implique que l’on admet que les régulateurs tels que « oui », « ben oui » et « hm » sont des tours de parole.

On peut faire la même remarque à propos du problème déjà évoqué en rapport avec les interactions et le problème de découpage qu’elles posent. C’est le problème de découpage qui est lié aux situations mettant en présence un ensemble hétérogène de personnes. C’est le cas dans les magasins, où le commagent peut servir un nouveau cliager avant d’en avoir terminé avec le précédent. Souvent donc, les interactions sont enchâssées les unes dans les autres et il n’a pas toujours été facile de dégager un début et une fin à chaque interaction. De plus, les cliagers qui achètent de la presse dans les corpus librairie-papeterie-presse et tabac-presse passent souvent plusieurs minutes dans le magasin avant que l’échange communicatif ne débute réellement. On ne retrouve pas cette caractéristique dans les autres corpus, les cliagers n’ayant rien à choisir. Que ce soit au Crédit Agricole, à La Poste ou à la mairie, tout ce que les cliagers ont à faire, c’est attendre patiemment leur tour en faisant la queue.

Malgré ces difficultés, le résultat obtenu est basé sur le critère suivant : ont été considérés comme interactions à part entière les passages qui débutent par une mise en relation verbale ou non-verbale des participants et qui se terminent lors de la fin de cet échange verbal ou non-verbal. Dans le corpus tabac-presse, le découpage des interactions a été facilité par la présence de la sonnette qui retentit à chaque entrée d’un cliager. Le découpage des interactions est basé sur une répartition en séquences (Sacks, 1973) ; les interactions de commerce et de service, comme nombre d’autres interactions, se subdivisant en trois séquences principales : une ouverture, un corps, et une clôture (Kerbrat-Orecchioni, 1990 : 220).

Cette étude de corpus s’appuie essentiellement sur la bande d’enregistrements sonores car il n’a malheureusement pas été possible de faire des enregistrements vidéo – excepté à la librairie-papeterie-presse. Ces bandes sonores sont accompagnées pour des raisons de commodité d’une transcription écrite qui, bien qu’ayant été réalisée avec le plus grand souci d’exactitude, reste encore très imparfaite. En effet, comme le font remarquer Cosnier, Gaulmyn & Kerbrat-Orecchioni (1987 : 357), quel que soit le système de notation choisi, il est impossible de tout noter car on risquerait de n’en jamais finir avec la description. Par ailleurs, il ne faut pas négliger le fait que dès la transcription des données, l’analyse est déjà partiellement orientée. La transcription ne reflète jamais parfaitement ce qui s’est passé en réalité : c’est déjà une construction, construction opérée par le transcripteur et/ou l’analyste.

Les conversations authentiques sont des productions orales et divergent donc quelque peu des productions écrites, principalement au niveau de leur organisation syntaxique et sémantique. Mais plus caractéristique encore est la quantité de ce qui est traditionnellement considéré comme des « scories » mais dont les interactionnistes ont souligné le caractère fonctionnel de bon nombre d’entre elles (Kerbrat-Orecchioni, 1990 : 41), c’est-à-dire les ratés d’élocution, les inachèvements, les rectifications et reformulations, les hésitations et reprises en écho. Toutes ces scories s’avèrent particulièrement difficiles à retranscrire. En outre, plus le nombre de participants augmente, et plus l’établissement de la transcription se complique, principalement à cause des chevauchements de parole.

Notes
52.

Concernant les problèmes juridiques liés à la prise de vue ou de son en public, cf. Martel et Rachidi in R. Pléty (éd.), 1993 : 29 sqq.

53.

Sur les systèmes de transcription posturo-mimo-gestuels et les problèmes qu’ils posent, on pourra se reporter à Birdwhistell (1970), McNeill (1992), Streeck (1993), Galerneau (1998), Juven (2001), Morel & Bouvet (2001), Laver & Mackenzie Beck (2001).

54.

Il n’est tenu aucun compte de la forme du chevauchement de parole. Seul le début du chevauchement est indiqué. Les trois configurations possibles du chevauchement de parole en situation dyadique sont développées dans Schegloff 2000 (8-10).

55.

Le tour de parole est considéré comme l’unité organisationnelle des productions orales dialoguées en analyse conversationnelle.

56.

Pour une discussion récente des nombreux problèmes soulevés par les tours de parole, on pourra consulter Kerbrat-Orecchioni (1990 : 186 sqq), Jeanneret (1998 et 2000), Mondada (2000a et b), Schegloff (2000) et Roulet (2000).

57.

Modèle critiqué par O’Connell, Kowal & Kaltenbacher (1990).

58.

Schegloff les dénomme continuers parce qu’ils portent deux significations à la fois : (i) je régule, (ii) mais je ne prends pas la parole alors que j’en aurais la possibilité car je choisis de te laisser continuer.