1.1. La nécessité d’un corpus

La notion de corpus, bien qu’utilisée depuis quelques années, est loin de faire l’unanimité. Dans Corpus, Concordance, Collocation, Sinclair définit le corpus comme « a collection of naturally-occurring language text, chosen to characterize a state or variety of a language » (1991 : 171-172). Bowker et Pearson insistent sur quatre caractéristiques : un corpus est un assemblage important de textes authentiques compilés sous format électronique selon des critères précis (2002 : 9).

Étudier les noms composés de la terminologie d’Internet sans un corpus de textes serait insensé pour deux raisons. Premièrement, en collectant des composés au hasard des rencontres, des termes dénommant des concepts fondamentaux pourraient être omis. Un corpus bien construit est un fil conducteur permettant de voyager à travers les différents sous-domaines. Pour analyser le vocabulaire d’un domaine il faut une source dans laquelle puiser le lexique. Les phases de repérage et de description des éléments recherchés passent généralement par le dépouillement systématique de revues, de dictionnaires ou de livres dédiés au sujet car les termes y sont repérables et le contexte éclaire leur sens. C’est ainsi qu’ont procédé Béciri, Depierre, Gross, Tournier. Leurs travaux sont basés sur des corpus. Deuxièmement, un corpus est une source d’information contenant des extraits de textes, de discours qui reflètent ainsi l’usage. Représentant le discours de plusieurs personnes, un tel assemblage de données authentiques est une excellente base pour procéder à des analyses, fonder une méthode et des résultats.

Les corpus de textes spécialisés présentent, en outre, l’avantage de fournir des explications sur les termes (Kocourek, 1991 : 23). On ne peut pas étudier le vocabulaire d’un domaine sans en avoir une connaissance approfondie. Cela est d’autant plus important pour les disciplines techniques dans lesquelles les termes désignent des concepts précis qu’il faut identifier pour pouvoir reconnaître les termes qui sont des synonymes, des variantes, des raccourcissements. Les auteurs de termes techniques, soucieux de leur précision et de la compréhension des lecteurs, les définissent, utilisent des introducteurs, recourent aux guillemets, à l’italique.

Lors de la constitution d’un corpus, la sélection de textes doit tenir compte de l’objectif poursuivi. La collecte peut être nécessitée par des buts très variés comme des « divulgations, dans les revues qui informent systématiquement les spécialistes […] », la « confection de dictionnaires » (Sablayrolles, 2000 : 250) ou la description du lexique d’un domaine et la création d’un outil d’aide à la traduction dans notre cas.