4.2. Standardisation et lemmatisation

Ainsi que nous le verrons en particulier au chapitre 5, les corpus que nous avons recueillis présentent un écart important à la norme de l'écrit. Ils comprennent des graphies, unités et découpages d'unités particulières ; et des utilisations de la casse des caractères, des signes de ponctuation et de groupes de caractères, très éloignées de la norme. Les quelques exemples rassemblés ci-dessous permettent de se faire une première idée de ces faits. Notons que la plupart des interventions présente au moins un de ces phénomènes. Dans les exemples ci-après, les points d'intérêt sont mis en gras.

‘Extrait du Corpus P6’ ‘*PC6: le vendredi midi c autorisé:) ’ ‘Extrait du Corpus F3’ ‘*PCO: il parait que les joueurs ont eu moins d egueulle apres le match contre l'Espagne’ ‘Extrait du Corpus F7’ ‘*PKV: §å£µt £ë§ Fî££ë§ ’ ‘Extrait du Corpus P6’ ‘*PI7: ca y est t'est defouler.?? ’ ‘Extrait du Corpus P7’ ‘*PBA: PBB hey hohein, chacun son tour’ ‘Extrait du Corpus F5’ ‘*PCZ: aaaaaaaaaatttttttchoum ’ ‘Extrait du Corpus F5’ ‘*PBI: PARLEZZZ MOIIIIII PLZ ’ ‘Extrait du Corpus P7’ ‘*PAG: j suis dja en vac moa ’ ‘Extrait du Corpus P8’ ‘*PAN: j ai les 2 morceuax en surimpression lol

Afin de rendre les corpus plus lisibles, de faciliter les traitements automatiques et notamment afin de permettre la lemmatisation, il nous a fallu procéder à la normalisation des corpus. Cette procédure permet également de mesurer l'écart à la norme et de l'analyser qualitativement. Ce travail de normalisation ne peut être réalisé par des procédures automatiques le code n'ayant pas été étudié systématiquement auparavant et présentant des irrégularités importantes. Certes, les logiciels de traitement automatique prennent en compte une partie des usages écartés de la norme rencontrés dans les corpus écrits telles que les hésitations sur les tirets (ex. plateforme, plate forme ou plate-forme), les variantes orthographiques et morphologiques (accents, majuscules, cédilles, pluriels des formes en - als -aux…), les erreurs de frappe fréquentes (inversion de lettres, confusion de lettres proches sur le clavier…) 85 . Mais la prise en compte de ces phénomènes doit être augmentée des phénomènes spécifiques à un type de document numérique. Ainsi, les corpus issus de la numérisation, par exemple, et traités par reconnaissance optique de caractères présentent les phénomènes liés à l'activité humaine mentionnés ci-dessus, ainsi que des phénomènes spécifiques liés à la procédure technique imparfaite de reconnaissance optique de caractères.

Nous avons donc effectué manuellement sur l'ensemble des corpus ce travail de mise en conformité et si nous avons généralisé certains traitements de façon automatique, ce fut toujours accompagné d'une vérification.

Notes
85.

Fluhr et al. (1994), Fluhr (1997), Chenon et al. (1998)