3.3. Format des fichiers bruts

Nous avons présenté au chapitre 2 les principes de l'activité d'un canal. Nous exposons ci-après les informations qui ont permis la récupération et le traitement des corpus et notamment une analyse des fichiers bruts en vue de traitements automatiques les rendant exploitables d'un point de vue linguistique.

Le logiciel client IRC que nous avons utilisé permet l'enregistrement des logs séparément pour chaque canal. Il suffit de configurer le logiciel pour l'enregistrement lors d'une session, celui-ci crée alors un fichier au nom du canal dans lequel l'activité du canal est enregistrée séquentiellement. Puis à chaque nouvelle session sauf indication contraire de l'utilisateur, l'activité des canaux auxquels l'utilisateur est connecté est enregistrée à la suite dans les fichiers créés lors du premier enregistrement. L'illustration suivante (3-1) présente le fichier de log issu d'une session qui a été réalisée à cette seule fin.

Illustration (3-1) – Session IRC
Illustration (3-1) – Session IRC

Cet exemple très court permet de se faire une idée globale du type de fichiers que nous avons traités. On peut en effet observer qu'il existe différents types de lignes. Notamment, le début et la fin du fichier sont marqués de façon particulière par les lignes suivantes :

‘Session Start: Tue Oct 16 17:04:27 2001’ ‘…
Session Close: Tue Oct 16 17:05:18 2002’

Certaines lignes représentent les interventions des participants :

‘[17:32] <limo> hello’ ‘[17:33] <prune> salut’

Tandis que d'autres sont générées automatiquement par le système à la suite de certains événements :

‘[17:31] *** Now talking in #test’ ‘[17:32] *** limo is now known as prune’

Dans les sous-sections suivantes, nous tentons d'exposer de façon exhaustive les spécifications techniques des fichiers de corpus que nous avons collectés. Commençant par les frontières de session, nous exposons ensuite les types de lignes qui forment le contenu des sessions. L'analyse de ces spécifications permet ensuite d'appliquer des traitements automatiques distinguant l'activité linguistique spontanée de l'activité générée par le système en contrepartie d'événements causés par les participants.

Pour la présentation technique des différents types de lignes, nous utilisons les conventions suivantes.

‘<limo> hello’ ‘<prune> salut’

sont représentées par :