3.2. Présentation générale des corpus

Il s'agit pour nous maintenant de préciser la méthode de collecte des corpus employée, et de donner les caractéristiques générales de nos corpus. Cette section et les suivantes s'efforcent à la fois de mettre à jour la façon dont nous avons procédé pour éventuellement permettre et faciliter la reproduction de cette expérience, et de comparer nos deux corpus d'un point de vue très général.

Les statistiques de fréquentation des canaux publiées sur le Web nous ont permis de choisir les moments de la journée et les jours de la semaine auxquels effectuer nos enregistrements. Nous avons sélectionné pour chacun des deux canaux – dont les statistiques de fréquentations étaient tout à fait similaires – des moments à fréquentation potentiellement moyenne.

À l'issue de la collecte, il est possible de présenter les propriétés générales de nos corpus, c'est-à-dire les plages d'enregistrement des corpus, ainsi que le volume des données récoltées. On se reportera à la section 3.4, pour des informations relatives à l'activité sur les canaux.

Dans le tableau (3-1), on trouve dans la première colonne, le nom du corpus (rappelons que le premier caractère du nom correspond au canal, soit F ou P et que le second correspond à la session enregistrée), dans la deuxième et la troisième colonne l'heure de début d'enregistrement et l'heure de fin d'enregistrement sont celles de Paris (France). À partir de ces deux dernières informations est calculée la durée d'enregistrement. La dernière cellule du tableau totalise les durées d'enregistrement de toutes les sessions.

Tableau (3-1) – Propriétés temporelles des corpus
corpus Heure de début d’enregistrement Heure de fin d’enregistrement Durée
F1 12:23 13:07 0:44
F2 19:11 19:54 0:43
F3 17:35 19:39 2:04
F4 12:21 16:09 3:48
F5 16:16 18:36 2:20
F6 16:08 18:39 2:31
F7 11:33 18:24 6:51
F8 11:55 14:30 2:35
P1 12:19 13:07 0:48
P2 19:10 19:56 0:46
P3 17:35 19:38 2:03
P4 12:21 16:09 3:48
P5 16:07 18:39 2:32
P6 11:32 18:24 6:52
P7 10:43 16:50 6:07
P8 17:51 19:25 1:34
P9 11:54 14:30 2:36
    total 48:42

L'enregistrement des sessions a été effectué simultanément 62 pour les deux canaux à l'exception de 3 corpus : F5, P7 et P8. Le tableau (3-2) présente les correspondances en question.

Tableau (3-2) – Correspondances des enregistrements
  Calendrier des enregistrements
  t1 t2 t3 t4 t5 t6 t7 t8 t9 t10
Corpus F F1 F2 F3 F4 F5 F6 F7 - - F8
Corpus P P1 P2 P3 P4 - P5 P6 P7 P8 P9

L'enregistrement des sessions permet d'obtenir des fichiers qui ne sont pas exploitables tels quels étant donné la taille du corpus, présentée dans le tableau ci-après. Dans ce tableau, la première colonne présente le nom du corpus, il est suivi de sa taille en octets (unité de mesure informatique, un octet correspond en gros à un caractère). La troisième colonne informe sur la part du volume que représente une session dans un canal, tandis que la dernière colonne fournit cette information pour le total du corpus (F1 représente 6% des données enregistrées pour le canal F et 4% du total des données enregistrées).

Tableau (3-3) – Taille des fichiers de logs (en octets)
corpus taille (octets) part dans le canal part dans le corpus
F1 70 066 6% 4%
F2 53 414 4% 3%
F3 149 097 12% 9%
F4 107 402 9% 6%
F5 135 848 11% 8%
F6 144 564 12% 9%
F7 385 508 31% 23%
F8 182 724 11% 15%
P1 22 866 5% 1%
P2 31 919 7% 2%
P3 63 530 14% 4%
P4 34 976 8% 2%
P5 34 267 8% 2%
P6 107 034 24% 6%
P7 72 363 16% 4%
P8 37 733 8% 2%
P9 46 541 10% 3%

Ces premières données mettent en évidence, ainsi que cela est plus clairement présenté au tableau suivant, le fait que la durée d'enregistrement n'entretient pas un rapport simple avec la taille d'un corpus.

Tableau (3-4) – Mise en correspondance tailles/durées
corpus octets/min. car./min rang rang durée rang taille
F1 1592,41 1312,29545 1 7 7
F2 1242,19 1035,09302 2 8 8
F3 1202,4 983,612903 3 6 3
F4 471,061 387,20614 8 2 6
F5 970,343 785,714286 5 5 5
F6 957,377 784,993377 6 4 4
F7 937,976 772,545012 7 1 1
F8 1178,86 975,483871 4 3 2
P1 476,375 389,458333 3 8 9
P2 693,891 568,108696 1 9 8
P3 516,504 420,934959 2 6 3
P4 153,404 124,947368 9 3 6
P5 225,441 184,802632 7 5 7
P6 259,791 214,053398 6 1 1
P7 197,174 163,444142 8 2 2
P8 401,415 331,765957 4 7 5
P9 298,34 247,141026 5 4 4

Les fichiers du Corpus F renferment en majorité une plus grande densité d'information que les fichiers du Corpus P, il appartiendra à des analyses ultérieures d'expliciter ce fait.

Nous donnons ci-après la description technique des fichiers collectés qui a autorisé la mise en place de procédures de traitements automatiques. Ces procédures permettent d'une part d'obtenir une première caractérisation des corpus, et d'autre part, sont un préalable au formatage des données pour un traitement linguistique.

Notes
62.

Des différences de quelques minutes sont toutefois observées.