4.5. Conclusion

Ce chapitre a présenté la façon dont nous avons traité les lignes de messages de nos corpus, selon plusieurs paramètres, nécessaires aux analyses ultérieures. Il s'est agit, en effet, d'effectuer un premier tri des interventions, en fonction de la langue utilisée par le participant. Cette section a été l'occasion de remarques préliminaires concernant le français de nos corpus. Nous avons conservé dans les corpus toutes les lignes de messages, mais elles ont été annotées pour la langue de façon à pouvoir être sélectionnées automatiquement selon ce critère.

Nous avons ici également détaillé les principes de standardisation et de lemmatisation que nous avons mis en place, sur les interventions en français. Ces traitements nous sont utiles tout au long de cette étude, mais plus spécifiquement, aux chapitres concernant le code et le lexique.

Une section importante a été consacrée à la description des mesures d'anonymisation que nous avons mises en place, et à ce qu'elles impliquent comme pertes dans le corpus. Nous avons toutefois expliqué comment limiter ces dernières, en insérant des balises dans le corpus pour les signaler et caractériser les phénomènes.

Enfin, nous avons rapidement présenté le logiciel que nous avons utilisé pour recueillir le corpus ainsi prétraité, ainsi que les critères qui ont guidé notre choix.

À l'issue des chapitres 3 et 4 on aura donc décrit les corpus tels que nous les avons collectés ainsi qu'une partie des traitements de base qui leur ont été appliqués. Il convient à présent d'entrer dans l'analyse proprement dite et nous envisagerons dans un premier temps la matérialité linguistique.