6.3 Le corpus documentaire de base utilisé

Le corpus d’analyse, sous-ensemble du corpus de référence (cf. corpus textuel informatisé B, annexe) a servi à la réalisation du travail de systématisation du champ terminologique de la pollution, champ qui a été délimité d’abord par l’analyse du système conceptuel (de l’Écologie), et du champ conceptuel dont le concept-clé est environnement. Il a également servi à l’analyse textuelle, discursive et terminologique 428 du champ en étude. Il a finalement été utilisé pour la consignation, le traitement et la présentation des données obtenues par la recherche terminologique (termes, contextes, cooccurrences, éléments linguistiques, etc.)

Il s’agit d’un corpus informatisé (l’informatisation d’un corpus permet d’effectuer d’intéressantes études quantitatives et qualitatives 429 ). Les textes ont été “scannés” à l’aide d’un programme de reconnaissance de caractères. La lecture optique a permis le transfert des textes vers un traitement de texte afin d’être “nettoyés des scories” provoqués par les insuffisances du système OCR pendant le transfert. Ensuite, ils ont été enregistrés sous ASCII (texte seul). Puis, une nouvelle sélection de textes a été faite sur le corpus informatisé B 430 . Cette sélection a constitué le corpus textuel informatisé A (sous-ensemble de B) 431 . Le premier corpus informatisé (B) a intégré le programme Hyperbase surtout pour le repérage et dépouillement des occurrences, contextes et concordances.

Le deuxième (corpus A) fut “codé” 432 pour intégrer le programme Stablex qui demande une préparation rigoureuse des textes, avec un traitement préalable des unitermes et des polytermes. Cette préparation n’est possible que si on connaît parfaitement le domaine traité, y compris les dimensions discursives et vocabulaires des textes, et surtout les unités de type syntagmatique, le codage consistant, entre autres, à ajouter un “trait d’union” entre chaque blanc comme signe de reconnaissance, en vue d’un meilleur traitement textuel, discursif et statistique des textes.

Tous les éléments de nature iconique (graphiques, schémas, photos, etc.) ont dû être retirés lors de la lecture optique. Nous avons regretté que les programmes utilisés ne nous permettent pas une analyse de ce type d’éléments, car nous sommes bien conscients que ces “unités” sont également porteuses de sens.

Il va de soi que la confrontation entre le corpus de référence et le corpus de base, ceci tout au long de la recherche, a permis de définir plus précisement la carte conceptuelle du domaine que nous délimitions. L’homogénéité des choix terminologiques et la cohérence de leur structure terminologique y ont beaucoup gagné.

Notes
428.

Dans le sens d’étude des termes : matrice terminogénique, analyses morphologique, syntaxico-sémantique, pragmatique et logique.

429.

cf. III Partie, Annexes et Bibliographie - corpora d’analyse.

430.

Le volume totat des documents étaient trop important et très lourd à gérer dans les délais fixés pour être traité par le programme Stablex.

431.

Les corpus textuels informatisés ont été traités par des hypertextes en complémentarité : A + B (qui contient A) = traitement par Stablex + traitement par Hyperbase.

432.

cf. le manuel de Stablex sur les exigences de codage.