3.2. Présentation générale des corpus

Il s'agit pour nous maintenant de préciser la méthode de collecte des corpus employée, et de donner les caractéristiques générales de nos corpus. Cette section et les suivantes s'efforcent à la fois de mettre à jour la façon dont nous avons procédé pour éventuellement permettre et faciliter la reproduction de cette expérience, et de comparer nos deux corpus d'un point de vue très général.

Les statistiques de fréquentation des canaux publiées sur le Web nous ont permis de choisir les moments de la journée et les jours de la semaine auxquels effectuer nos enregistrements. Nous avons sélectionné pour chacun des deux canaux – dont les statistiques de fréquentations étaient tout à fait similaires – des moments à fréquentation potentiellement moyenne.

À l'issue de la collecte, il est possible de présenter les propriétés générales de nos corpus, c'est-à-dire les plages d'enregistrement des corpus, ainsi que le volume des données récoltées. On se reportera à la section 3.4, pour des informations relatives à l'activité sur les canaux.

Dans le tableau (3-1), on trouve dans la première colonne, le nom du corpus (rappelons que le premier caractère du nom correspond au canal, soit F ou P et que le second correspond à la session enregistrée), dans la deuxième et la troisième colonne l'heure de début d'enregistrement et l'heure de fin d'enregistrement sont celles de Paris (France). À partir de ces deux dernières informations est calculée la durée d'enregistrement. La dernière cellule du tableau totalise les durées d'enregistrement de toutes les sessions.

Tableau (3-1) – Propriétés temporelles des corpus
corpus	Heure de début d’enregistrement	Heure de fin d’enregistrement	Durée
F1	12:23	13:07	0:44
F2	19:11	19:54	0:43
F3	17:35	19:39	2:04
F4	12:21	16:09	3:48
F5	16:16	18:36	2:20
F6	16:08	18:39	2:31
F7	11:33	18:24	6:51
F8	11:55	14:30	2:35
P1	12:19	13:07	0:48
P2	19:10	19:56	0:46
P3	17:35	19:38	2:03
P4	12:21	16:09	3:48
P5	16:07	18:39	2:32
P6	11:32	18:24	6:52
P7	10:43	16:50	6:07
P8	17:51	19:25	1:34
P9	11:54	14:30	2:36
		total	48:42

L'enregistrement des sessions a été effectué simultanément ⁶² pour les deux canaux à l'exception de 3 corpus : F5, P7 et P8. Le tableau (3-2) présente les correspondances en question.

Tableau (3-2) – Correspondances des enregistrements
	Calendrier des enregistrements
	t1	t2	t3	t4	t5	t6	t7	t8	t9	t10
Corpus F	F1	F2	F3	F4	F5	F6	F7	-	-	F8
Corpus P	P1	P2	P3	P4	-	P5	P6	P7	P8	P9

L'enregistrement des sessions permet d'obtenir des fichiers qui ne sont pas exploitables tels quels étant donné la taille du corpus, présentée dans le tableau ci-après. Dans ce tableau, la première colonne présente le nom du corpus, il est suivi de sa taille en octets (unité de mesure informatique, un octet correspond en gros à un caractère). La troisième colonne informe sur la part du volume que représente une session dans un canal, tandis que la dernière colonne fournit cette information pour le total du corpus (F1 représente 6% des données enregistrées pour le canal F et 4% du total des données enregistrées).

Tableau (3-3) – Taille des fichiers de logs (en octets)
corpus	taille (octets)	part dans le canal	part dans le corpus
F1	70 066	6%	4%
F2	53 414	4%	3%
F3	149 097	12%	9%
F4	107 402	9%	6%
F5	135 848	11%	8%
F6	144 564	12%	9%
F7	385 508	31%	23%
F8	182 724	11%	15%
P1	22 866	5%	1%
P2	31 919	7%	2%
P3	63 530	14%	4%
P4	34 976	8%	2%
P5	34 267	8%	2%
P6	107 034	24%	6%
P7	72 363	16%	4%
P8	37 733	8%	2%
P9	46 541	10%	3%

Ces premières données mettent en évidence, ainsi que cela est plus clairement présenté au tableau suivant, le fait que la durée d'enregistrement n'entretient pas un rapport simple avec la taille d'un corpus.

Tableau (3-4) – Mise en correspondance tailles/durées
corpus	octets/min.	car./min	rang	rang durée	rang taille
F1	1592,41	1312,29545	1	7	7
F2	1242,19	1035,09302	2	8	8
F3	1202,4	983,612903	3	6	3
F4	471,061	387,20614	8	2	6
F5	970,343	785,714286	5	5	5
F6	957,377	784,993377	6	4	4
F7	937,976	772,545012	7	1	1
F8	1178,86	975,483871	4	3	2
P1	476,375	389,458333	3	8	9
P2	693,891	568,108696	1	9	8
P3	516,504	420,934959	2	6	3
P4	153,404	124,947368	9	3	6
P5	225,441	184,802632	7	5	7
P6	259,791	214,053398	6	1	1
P7	197,174	163,444142	8	2	2
P8	401,415	331,765957	4	7	5
P9	298,34	247,141026	5	4	4

Les fichiers du Corpus F renferment en majorité une plus grande densité d'information que les fichiers du Corpus P, il appartiendra à des analyses ultérieures d'expliciter ce fait.

Nous donnons ci-après la description technique des fichiers collectés qui a autorisé la mise en place de procédures de traitements automatiques. Ces procédures permettent d'une part d'obtenir une première caractérisation des corpus, et d'autre part, sont un préalable au formatage des données pour un traitement linguistique.

Notes

62.

Des différences de quelques minutes sont toutefois observées.