Il s'agit pour nous maintenant de préciser la méthode de collecte des corpus employée, et de donner les caractéristiques générales de nos corpus. Cette section et les suivantes s'efforcent à la fois de mettre à jour la façon dont nous avons procédé pour éventuellement permettre et faciliter la reproduction de cette expérience, et de comparer nos deux corpus d'un point de vue très général.
Les statistiques de fréquentation des canaux publiées sur le Web nous ont permis de choisir les moments de la journée et les jours de la semaine auxquels effectuer nos enregistrements. Nous avons sélectionné pour chacun des deux canaux – dont les statistiques de fréquentations étaient tout à fait similaires – des moments à fréquentation potentiellement moyenne.
À l'issue de la collecte, il est possible de présenter les propriétés générales de nos corpus, c'est-à-dire les plages d'enregistrement des corpus, ainsi que le volume des données récoltées. On se reportera à la section 3.4, pour des informations relatives à l'activité sur les canaux.
Dans le tableau (3-1), on trouve dans la première colonne, le nom du corpus (rappelons que le premier caractère du nom correspond au canal, soit F ou P et que le second correspond à la session enregistrée), dans la deuxième et la troisième colonne l'heure de début d'enregistrement et l'heure de fin d'enregistrement sont celles de Paris (France). À partir de ces deux dernières informations est calculée la durée d'enregistrement. La dernière cellule du tableau totalise les durées d'enregistrement de toutes les sessions.
corpus | Heure de début d’enregistrement | Heure de fin d’enregistrement | Durée |
F1 | 12:23 | 13:07 | 0:44 |
F2 | 19:11 | 19:54 | 0:43 |
F3 | 17:35 | 19:39 | 2:04 |
F4 | 12:21 | 16:09 | 3:48 |
F5 | 16:16 | 18:36 | 2:20 |
F6 | 16:08 | 18:39 | 2:31 |
F7 | 11:33 | 18:24 | 6:51 |
F8 | 11:55 | 14:30 | 2:35 |
P1 | 12:19 | 13:07 | 0:48 |
P2 | 19:10 | 19:56 | 0:46 |
P3 | 17:35 | 19:38 | 2:03 |
P4 | 12:21 | 16:09 | 3:48 |
P5 | 16:07 | 18:39 | 2:32 |
P6 | 11:32 | 18:24 | 6:52 |
P7 | 10:43 | 16:50 | 6:07 |
P8 | 17:51 | 19:25 | 1:34 |
P9 | 11:54 | 14:30 | 2:36 |
total | 48:42 |
L'enregistrement des sessions a été effectué simultanément 62 pour les deux canaux à l'exception de 3 corpus : F5, P7 et P8. Le tableau (3-2) présente les correspondances en question.
Calendrier des enregistrements | ||||||||||
t1 | t2 | t3 | t4 | t5 | t6 | t7 | t8 | t9 | t10 | |
Corpus F | F1 | F2 | F3 | F4 | F5 | F6 | F7 | - | - | F8 |
Corpus P | P1 | P2 | P3 | P4 | - | P5 | P6 | P7 | P8 | P9 |
L'enregistrement des sessions permet d'obtenir des fichiers qui ne sont pas exploitables tels quels étant donné la taille du corpus, présentée dans le tableau ci-après. Dans ce tableau, la première colonne présente le nom du corpus, il est suivi de sa taille en octets (unité de mesure informatique, un octet correspond en gros à un caractère). La troisième colonne informe sur la part du volume que représente une session dans un canal, tandis que la dernière colonne fournit cette information pour le total du corpus (F1 représente 6% des données enregistrées pour le canal F et 4% du total des données enregistrées).
corpus | taille (octets) | part dans le canal | part dans le corpus |
F1 | 70 066 | 6% | 4% |
F2 | 53 414 | 4% | 3% |
F3 | 149 097 | 12% | 9% |
F4 | 107 402 | 9% | 6% |
F5 | 135 848 | 11% | 8% |
F6 | 144 564 | 12% | 9% |
F7 | 385 508 | 31% | 23% |
F8 | 182 724 | 11% | 15% |
P1 | 22 866 | 5% | 1% |
P2 | 31 919 | 7% | 2% |
P3 | 63 530 | 14% | 4% |
P4 | 34 976 | 8% | 2% |
P5 | 34 267 | 8% | 2% |
P6 | 107 034 | 24% | 6% |
P7 | 72 363 | 16% | 4% |
P8 | 37 733 | 8% | 2% |
P9 | 46 541 | 10% | 3% |
Ces premières données mettent en évidence, ainsi que cela est plus clairement présenté au tableau suivant, le fait que la durée d'enregistrement n'entretient pas un rapport simple avec la taille d'un corpus.
corpus | octets/min. | car./min | rang | rang durée | rang taille |
F1 | 1592,41 | 1312,29545 | 1 | 7 | 7 |
F2 | 1242,19 | 1035,09302 | 2 | 8 | 8 |
F3 | 1202,4 | 983,612903 | 3 | 6 | 3 |
F4 | 471,061 | 387,20614 | 8 | 2 | 6 |
F5 | 970,343 | 785,714286 | 5 | 5 | 5 |
F6 | 957,377 | 784,993377 | 6 | 4 | 4 |
F7 | 937,976 | 772,545012 | 7 | 1 | 1 |
F8 | 1178,86 | 975,483871 | 4 | 3 | 2 |
P1 | 476,375 | 389,458333 | 3 | 8 | 9 |
P2 | 693,891 | 568,108696 | 1 | 9 | 8 |
P3 | 516,504 | 420,934959 | 2 | 6 | 3 |
P4 | 153,404 | 124,947368 | 9 | 3 | 6 |
P5 | 225,441 | 184,802632 | 7 | 5 | 7 |
P6 | 259,791 | 214,053398 | 6 | 1 | 1 |
P7 | 197,174 | 163,444142 | 8 | 2 | 2 |
P8 | 401,415 | 331,765957 | 4 | 7 | 5 |
P9 | 298,34 | 247,141026 | 5 | 4 | 4 |
Les fichiers du Corpus F renferment en majorité une plus grande densité d'information que les fichiers du Corpus P, il appartiendra à des analyses ultérieures d'expliciter ce fait.
Nous donnons ci-après la description technique des fichiers collectés qui a autorisé la mise en place de procédures de traitements automatiques. Ces procédures permettent d'une part d'obtenir une première caractérisation des corpus, et d'autre part, sont un préalable au formatage des données pour un traitement linguistique.
Des différences de quelques minutes sont toutefois observées.