Chapitre 3
Description du corpus brut

Ainsi que nous le mentionnions au chapitre 2, notre corpus est constitué de plusieurs sessions provenant de deux canaux publics différents, ceci afin d'éviter l'idiosyncrasie qu'aurait présentée l'étude d'un seul canal. Chaque session fait l'objet d'un fichier dont le nom se compose d'une lettre et d'un chiffre, représentant respectivement le canal dont le fichier est issu (P ou F) et le numéro de la session d'enregistrement. Nous détenons d’autres corpus provenant d’autres canaux et d’autres types de communication en réseau synchrone qui ne sont actuellement que partiellement traités, et nous sont principalement utiles pour vérifier qu’il ne se présente pas de différences majeures entre eux. Lorsque nous y faisons référence, nous le mentionnons explicitement. Toutes ces données proviennent évidemment de lieux électroniques publics.

Ce chapitre présente dans un premier temps les principes de la constitution du corpus, puis ses caractéristiques générales. La troisième section contient les spécifications des fichiers collectés, qui permettent d'obtenir des informations quantitatives sur les données exposées à la section suivante. En outre, l'analyse du format des fichiers a permis les traitements automatiques nécessaires à l'exploitation linguistique des données.