1.2.2. Description des corpus micro

Afin de faciliter la lecture, nous avons opté pour une présentation sous forme de fiches, et nous nous sommes inspirée de certains descripteurs présents dans la base de données CLAPI, établie dans notre laboratoire ICAR 134 , servant à donner des détails sur la façon dont ont été constitués le corpus, les enregistrements, les transcriptions et les locuteurs qui y sont associés. Les différentes rubriques apportant des informations sont les suivantes :

  • corpus : nous avons attribué un nom à chacun des corpus transcrits ;
  • enregistrement : dans cette catégorie, apparaissent plusieurs informations indiquant le support numérique (audio ou vidéo) de l’enregistrement, son mode de recueil (à micro caché ou visible), la qualité de l’enregistrement (bonne, moyenne ou mauvaise), si l’enregistrement a été anonymisé ou non (bippé pour la bande son et flouté pour la bande vidéo), la date et le lieu de recueil de l’enregistrement, ainsi que le nombre de locuteurs présents ;
  • genre interactionnel : la base de données CLAPI propose une liste ouverte de genres interactionnels qu’il est possible d’attribuer aux enregistrements, pour les identifier rapidement et pour pouvoir les traiter par genre identique. Elle propose également une sous-liste détaillée (« Détail »), pour indiquer plus précisément à quelle catégorie appartiennent les interactions enregistrées ;
  • transcription : elle peut apparaître dans différents formats selon les choix effectués par les transcripteurs. Comme nous l’avons largement évoqué, nous avons effectué les transcriptions dans le logiciel Praat qui permet d’aligner le signal sonore et le texte puis, grâce à une passerelle informatique, nous les avons converties en format texte pour les retravailler dans Word, en optant pour une numérotation des lignes (et non des tours de parole), avant de les imprimer en .pdf. Quant au format de la transcription, nous avons été obligée d’utiliser l’A.P.I. doublé d’une traduction en français. Enfin, une remarque sur l’anonymisation de la transcription : elle est effective lorsque les noms des locuteurs ont été remplacés à la fois dans la transcription et dans les paroles des participants par des pseudonymes, ce qui est le cas dans toutes nos transcriptions ;
  • conventions de transcription : sont rassemblés ici tous les symboles qui ont été employés pour donner des informations de types verbal, paraverbal ou non verbal ;
  • locuteurs OR/OCC : nous avons indiqué à chaque fois, par groupe de locuteurs, ceux qui étaient présents dans le corpus constitué.

Pour notre travail, nous avons identifié trois sous-corpus recueillis dans trois situations de communication différentes et qui ne sont représentatifs de la totalité du corpus macro que dans une moindre mesure.

Notes
134.

Groupe ICOR 2006, Corinte - Intégration, site CORINTE, http://icar.univ-lyon2.fr/projets/corinte/