4. Méthodologie

Les données de Marilyn sont tirées de l’une des sept études longitudinales de productions spontanées qui ont été réalisées chez des enfants normo-entendants monolingues parlant le français lyonnais. Ces études sont financées par le National Institute of Mental Health, ¹⁸ dans le cadre du projet intitulé « Constraints on Prosodic and Morphological Development » dirigé par Katherine Demuth (Brown University, Providence). Dans le cadre de ce projet, Marilyn a été enregistrée à son domicile, en compagnie de sa mère, toutes les deux semaines, de l’âge de 13 mois à l’âge de 35 mois, approximativement (1;00.28 à 2;11.14). ¹⁹ Marilyn a trois frères : des jumeaux plus jeunes de 1 an et 4 mois et un troisième frère, l’aîné de la famille, plus âgé que Marilyn de 2 ans et 2 mois.

Les enregistrements vidéo ont été réalisés avec une caméra Panasonic NV-DS37 et des cassettes mini DV de 90 minutes. Pour le son, deux microphones VHF sans fil Azden WL/T-Pro ont été utilisés. Un microphone était destiné à l’enfant et l’autre à la mère. Le récepteur stéréo des microphones sans fil est un Azden VHF WR22-PRO à 2 canaux. Les enregistrements sont, en général, d’une durée de 50 minutes à une heure. Ils ont été numérisés et les images ont été compressées sur ordinateurs Macintosh à l’aide des logiciels iMovie et Final Cut Pro. Les pistes audios ont été conservées en format original (16 bits, 44,1 kHz).

En ce qui concerne le corpus étudié, il est constitué de 21 enregistrements sur les 42 qui ont été effectués. Il s’agit des enregistrements des sessions 19 à 37, et ceux des sessions 40 et 42. Le corpus sélectionné s’étale sur une période de plus d’un an et comporte environ 21000 occurrences de mots (« Occur. » dans le tableau (63)) provenant de plus de 1000 items lexicaux différents. Une présentation succinte du corpus utilisé est donnée en (63). Les choix qui ont conduit à la sélection de ce corpus seront discutés dans la partie introduction du prochain chapitre. Dans l’introduction du prochain chapitre, le contenu de ce corpus sera également détaillé.

(63) Présentation du corpus utilisé
Session	Âge	Occur.	Session	Âge	Occur.	Session	Âge	Occur.
19	1;10.17	440	26	2;02.01	633	33	2;05,29	1467
20	1;11.02	506	27	2;02.15	1014	34	2;06.19	2091
21	1;11.13	729	28	2;02.29	713	35	2;07.10	1449
22	1;11.28	424	29	2;03.12	802	36	2;07.21	1218
23	2;00.12	544	30	2;03.26	947	37	2;08.04	907
24	2;00.25	708	31	2;04.09	1111	40	2;10.03	1719
25	2;01.17	621	32	2;05.01	1231	42	2;11.14	1747

La transcription orthographique et phonétique a été réalisée à l’aide du logiciel CLAN disponible sur CHILDES (Child Language Data Exchange System ; http://childes.psy.cmu.edu/). CHILDES est un système informatisé d’échanges de données sur le langage. Ce système trouve son origine dans un projet d’un groupe de chercheurs étudiant l’acquisition du langage et voulant mettre en commun leurs données (MacWhinney 1991). Le projet CHILDES comporte trois volets :

Une banque de données provenant de nombreux projets de recherche.
Un système de transcription et de codage du discours appelé CHAT (Codes for Human Analysis of Transcripts).
Un ensemble de programmes informatiques permettant d’analyser les données transcrites nommé CLAN (Computer Language Analysis).

Mis à part les fonctions de liage et de transcription, les outils incorporés à CLAN n’ont pas été utilisés dans ce travail car ils ont été conçus surtout pour l’analyse morpho-syntaxique ou les interactions et le lexique.

Une fois les données transcrites orthographiquement et phonétiquement dans CHILDES en SAMPA, ²⁰ elles ont été converties en API et exportées dans Excel. Une fois intégrées dans Excel, les énoncés ont été découpés en mots. Toutes les consonnes de chaque mot ont été codées. Quelques lignes de la feuille Excel obtenues après codage sont présentées en (64). Cet exemple ne présente que le codage pour la consonne finale du mot, mais le même principe est appliqué à toutes les positions.

(64) Exemple de codage dans Excel
Date Enreg.	Âge	Fichier	Ligne	Orthographe	Enfant API	C#c	C#p	C#res
14/01/2003	1;10.17	19	1019	coule	ku	l	∅	lelid
14/01/2003	1;10.17	19	992	case	kak	z	k	zsubk

Pour chaque mot, une transcription de la production est disponible dans le champ « Enfant API ». Afin de retrouver le contexte dans lequel a été produit le mot, le numéro de la ligne de l’énoncé dont il est tiré est indiqué dans le champ « ligne ». Le codage de chaque consonne indique la production de l’enfant, et ce qui est attendu dans la forme de l’adulte. Ainsi, dans le cas de la première ligne, la consonne en finale du mot cible coule [kul] est le /l/. Elle est codée par « l » dans le champ « C#c » (consonne finale cible). Dans cet exemple, le /l/ n’a pas été produit par l’enfant, il a donc été codé par « ∅ » dans le champ « C#p » (consonne finale produite). Une fonction permettant de coder automatiquement les phénomènes (réalisation, substitution, élision et insertion) observés a été créée afin de traiter plus rapidement et systématiquement les données. Cette fonction renvoie dans le champ « C#res » (résultat de la comparaison entre C#c et C#p), pour la consonne finale de l’exemple de coule [kul] produit [ku], la valeur « lelid », qui signifie que la consonne finale /l/ a été élidée par l’enfant. Cette fonction est cependant aveugle dans le sens où elle ne prend pas en compte le contexte dans la valeur qu’elle retourne. Ainsi, dans le cas du mot case sur la deuxième ligne, la fonction retourne « zsubk », ce qui signifie « /z/ est substitué par [k] », mais n’indique pas qu’il s’agit d’une assimilation du trait dorsal de la première consonne du mot. Afin d’obtenir, les différents pourcentages de réalisations, de substitutions et d’élisions de chaque consonne en fonction de sa position ainsi que les processus d’assimilations ou tout autres processus phonologiques, des macros programmées en VBA ²¹ ont été utilisées.

En ce qui concerne la présentation des données, certains graphiques ont subi un lissage. Ainsi, quand dans la légende d’une figure apparaît le terme « (lissée) », cela signifie qu’un lissage de la courbe par la méthode des moyennes mobiles a été effectué. Dans tous les cas où ce lissage a été utilisé, il est d’ordre 3, c’est-à-dire que pour calculer la courbe lissée à partir de x points, pour chacun des points la moyenne des données de ce point avec le point d’avant et le point d’après a été calculée (z(t)=1/3*(x(t1)+x(t)+x(t+1))). Ce lissage permet, entre autres, de faire apparaître plus nettement les tendances d’une série chronologique.

Avant de procéder à l’analyse du corpus de Marilyn, dans le prochain chapitre, l’ensemble des comportements des consonnes observés dans ce corpus sera décrit. Je présenterai ces consonnes tout d’abord en fonction de leur position dans la syllabe, puis en fonction de leur mode d’articulation.

Notes

18.

Subvention #IR0 IMH60922-01A2.

19.

Dans cette thèse, j’applique, pour indiquer l’âge de l’enfant, la convention suivante: années;mois.jours ou, autrement dit, A;MM.JJ.

20.

SAMPA est l’acronyme de Speech Assessment Methods Phonetic Alphabet. Il s’agit d’un jeu de caractères phonétiques utilisable sur ordinateur utilisant les caractères ASCII 7-bits imprimables, basé sur l’Alphabet Phonétique International (API).

21.

Visual Basic for Applications (VBA) est une implémentation de Microsoft Visual Basic, un langage de programmation qui est intégré dans toutes les applications de Microsoft Office.