L’étape de nettoyage et d’homogénéisation comporte certains problèmes propres, d’une part, aux textes à numériser et, d’autre part, aux textes déjà numérisés, ainsi qu’un problème commun aux deux types de textes.
Comme nous l’avons déjà mentionné, un certain nombre de textes ont dû être numérisés à l’aide d’un logiciel de reconnaissances de caractères, en l’occurrence OmniPage Pro 11.0. Malgré les progrès de ce type de logiciel, l’inconvénient majeur mentionné par Habertet al. (1997 : 161) et Delavigne (2001 396 : 273) n’a pas changé, à savoir la nécessité d’une relecture très fastidieuse (pour rectifier la ponctuation, le traitement des caractères inhabituels, corriger les lettres qui ont été transformées, etc.).
Précisons à propos de la date que la thèse de Valérie Delavigne a été soutenue en 2001, mais que le travail de numérisation qu’elle a effectué est bien antérieur.