3.1.1.1. Problème commun aux deux types de corpus

L’étape de nettoyage et d’homogénéisation comporte certains problèmes propres, d’une part, aux textes à numériser et, d’autre part, aux textes déjà numérisés, ainsi qu’un problème commun aux deux types de textes.

3.1.1.1.1. Problème lié à la numérisation des textes : relecture

Comme nous l’avons déjà mentionné, un certain nombre de textes ont dû être numérisés à l’aide d’un logiciel de reconnaissances de caractères, en l’occurrence OmniPage Pro 11.0. Malgré les progrès de ce type de logiciel, l’inconvénient majeur mentionné par Habertet al. (1997 : 161) et Delavigne (2001 396  : 273) n’a pas changé, à savoir la nécessité d’une relecture très fastidieuse (pour rectifier la ponctuation, le traitement des caractères inhabituels, corriger les lettres qui ont été transformées, etc.).

Notes
396.

Précisons à propos de la date que la thèse de Valérie Delavigne a été soutenue en 2001, mais que le travail de numérisation qu’elle a effectué est bien antérieur.