4.2 Recueil de corpus

Nous avons collecté les corpus des neuf enfants autistes, cités ci-dessus. Les enfants ont été enregistrés pendant trois années entre le mois janvier 2006 et le mois de mars 2008, environ tous les trois mois. Ils ont été enregistrés dans leurs hôpitaux de jours respectifs – Isatis, la Tarentelle, le Garon, l’IME Perce-Neige et Saint-Augustin. Nous avons enregistré les enfants dans trois types d’interactions différentes :

  • En séance de travail, soit en face à face avec leur éducateur référent, soit en travail de groupe avec une institutrice spécialisée, soit en séance d’orthophonie ou de très rares fois, en travail en autonomie ;
  • À table, au goûter ou au déjeuner selon les centres de prise en charge ;
  • En séance de jeu, le plus souvent seul mais de temps en temps avec d’autres enfants ou avec les éducateurs, le choix du jeu pouvant être libre ou imposé.

Nous avons transcrit les corpus de ces neufs enfants selon les recommandations de CHILDES 51 , un projet international sur l’acquisition du langage, qui met en ligne des corpus variés d’enfants à développement typique et d’enfants atteints de différentes pathologies ayant des incidences sur le langage.

Une transcription est une représentation écrite du langage parlé (et dans certains cas, gestuel). En ce qui concerne notre étude, il s’agit d’un contexte naturel de production. La transcription permet l’analyse du langage parlé de la même façon que le matériel écrit. Elle doit représenter ce que les participants ont dit, le plus fidèlement possible.

Le système de traitement des corpus que propose CHILDES comporte essentiellement trois outils complémentaires.

  • Le premier outil, nommé CHAT (Codes for the Human Analysis of Transcripts) se compose d’un ensemble de normes de transcription. L’objectif de cet outil est de fournir des normes standardisées de transcription du langage parlé afin de pouvoir les soumettre à des analyses effectuées par ordinateur.
  • La seconde composante de CHILDES comprend un ensemble de programmes d’analyse automatique des données transcrites. CLAN (Computerized Language Analysis) (MacWhinney & Snow, 1991) se compose d’une quarantaine de programmes : certains sont généraux et d’autres relativement spécialisés et sont destinés à certains projets spécifiques de recherche. Plusieurs niveaux d’analyse peuvent être effectués de la phonologie jusqu’au discours.
  • Enfin, le système CHILDES comporte une banque de données concernant une trentaine de langues différentes même si l’anglais y est largement représenté. Ces corpus proviennent d’enregistrements en situation naturelle. Ils permettent de se documenter sur le développement normal d’enfants monolingues ou bilingues dans les diverses langues. La base de données comprend aussi des corpus d’enfants ayant des problèmes de langage ou des problèmes spécifiques de développement cognitif (syndrome de Down, autisme, SLI, aphasie etc).

Étant donné que les corpus disponibles sur le site de CHILDES ont tous été transcrits selon les normes de CHAT, il est donc possible pour nous d’utiliser les corpus d’enfants à développement typique et d’enfants atteints de SLI afin des les comparer avec nos corpus d’enfants autistes. Les corpus utilisés étant tous établis selon les mêmes standards, les différentes analyses pratiquées dessus sont cohérentes entre elles. À l’aide de l’outil CLAN, nous avons effectué plusieurs analyses de nos corpus.

La première analyse, qui est essentielle pour la poursuite de l’étude (CHECK), est effectuée via le programme de vérification des fichiers. Certaines transcriptions peuvent atteindre des tailles conséquentes et il est fréquent que des erreurs ou des problèmes s’y soient glissés. Le programme CHECK donne une liste des erreurs qu’on se propose de corriger : les lignes défectueuses sont données avec une description du problème rencontré. Le programme CHECK effectue deux passages successifs sur chaque fichier. Au cours du premier passage, il vérifie la structure globale du fichier et s’il ne rencontre aucun problème, il effectue un deuxième passage afin de vérifier en détail la structure du fichier.

Nous avons ensuite, utilisé le programme d’analyses fréquentielles (FREQ). Ce programme permet de calculer la fréquence lexicale, c’est-à-dire qu’il produit la liste de tous les mots émis par le ou les sujets, accompagnée du nombre de fois où le sujet a utilisé le même mot. Il calcule aussi le rapport du nombre de mots différents (types) sur le nombre total d’occurrences (tokens). Cet indice, TTR (Type-Token ration) sert d’indice global de la diversité lexicale. Toutefois, cet indice ne peut être utilisé que pour comparer des corpus de taille équivalente. En effet, plus la taille du corpus augmente plus le nombre relatif des types augmente.

Enfin, le dernier programme qui nous a été utile est le calcul de la longueur moyenne des énoncés (MLU). La MLU correspond au nombre de mot qu’un sujet produit lors d’un énoncé. Sur la totalité du corpus, on établit une moyenne de tous les énoncés. Nous avons utilisé la MLU en mots et non en morphèmes car nous n’avons pas lemmatisé nos données. De plus plusieurs études ont montré que la MLU en mots est corrélée à la MLU en morphèmes à 0,97 en ce qui concerne l’anglais (Malakoff et al., 1999), à 0,99 pour l’espagnol (Aguado, 1988) et à 0,99 pour l’irlandais (Hickey, 1991). La corrélation semble être du même ordre pour le français.

Notes
51.

CHILDES = Child Language Exchange System ( http://childes.psy.cmu.edu )