2 Traitement préalable du corpus

2.1 Saisie des articles

Pour gagner du temps, dans la procédure d’extraction des syntagmes nominaux et du chargement de la base de données dans la maquette, il a fallu enregistrer les articles (documents) sur l’ordinateur et les préparer au préalable pour le traitement de l’information. Nous avons voulu travailler sur l’ordinateur à partir du moment où les articles ont été choisis.

Pour enregistrer les articles (documents) sur l’ordinateur, on a utilisé un scanner à main (ScanMan Logitech) pour la numérisation des textes et le logiciel Omnipage Direct pour la reconnaissance des caractères. Ce scanner a été choisi pour la bonne raison qu’il a été livré avec un logiciel d’OCR (Optical Character Recognition) - ou logiciel de reconnaissance optique des caractères - capable de reconnaître les caractères de la langue portugaise. En fait ce logiciel traite des textes en onze langues (allemand, anglais, danois, espagnol, français, italien, irlandais/gaélique, néerlandais, norvégien, portugais, suédois). L’autre raison déterminante de ce choix, à l’époque (début de l’année 1995), était le prix, moins cher que les scanners à plat. Ainsi, bien que l’on sache que des questions d’ergonomie et de précision se posent pour ce type de scanner, on l’a quand même choisi car il n’y avait que quinze articles à traiter.

Le temps nécessaire pour numériser chaque article a été d’environ trois heures en moyenne. Ce temps, un peu long, s’explique car la bonne utilisation de ce scanner dépend fondamentalement de la dextérité de la main de l’opérateur. En outre, la qualité de l’impression du document à numériser et le réglage du contraste du scanner comptent beaucoup pour la précision de la numérisation et de la reconnaissance des caractères d’un texte.

Les caractères non reconnus par le logiciel d’OCR ont été remplacés par le caractère « @ ». Cependant, d’autres caractères ont été reconnus d’une manière incorrecte. Nous avons rencontré les problèmes suivants :

  1. quelques lettres accentuées sont souvent prises pour d’autres lettres en fonction de la proximité de l’accent sur la lettre. Exemple : la lettre « ó » a parfois été reconnue comme un « 6 », la lettre « í » comme la lettre « f » et quelquefois comme la lettre « r » ; 
  2. la lettre « r » proche de la lettre « n » a parfois été reconnue comme étant la lettre « m » ;
  3. l’inverse de la situation ‘b’, plus haut, a été constaté lorsque le mot « information » apparaissait dans le texte et que l’OCR l’a reconnu comme étant « inforrnation ». Il semble reconnaître la lettre « m » comme étant les lettres « r » et « n » ;
  4. la lettre « i » est parfois reconnue comme étant la lettre « l » ;

Cette expérience a montré que pour un travail professionnel, il faut plutôt utiliser un scanner à plat et un logiciel d’OCR capable de résoudre les problèmes orthographiques dus à la méconnaissance des caractères, car la correction automatique de l’orthographe peut conduire le logiciel à adopter des mots qui n’ont rien à voir avec les mots du texte. Il faut donc choisir un logiciel qui puisse proposer aux utilisateurs le choix du mot correct, c’est-à-dire, un logiciel avec un maximum d’interactivité avec l’utilisateur ou l’opérateur du scanner.