2.1 QU’EST-CE QU’UN CORPUS ?

Un corpus est un ensemble fini d’énoncés pris pour objet d’analyse. Plus particulièrement, ensemble fini d’énoncés considérés comme caractéristiques du type de langue à étudie .

(Galisson et Coste 1976 : 131)’ ‘  Ensemble, aussi varié que possible, d’énoncés effectivement émis par des utilisateurs d’une langue à une époque donnée.

(Ducrot et Schaeffer 1995 : 50)’ ‘ Ensemble d’énoncés qu’on soumet à l’analyse.

(Dubois et al. 2001 : 123)’

Ces différentes définitions ayant en commun le terme “ énoncés ”, il convient de préciser ce que ce terme recouvre, en particulier en quoi il peut être différent des termes “ discours ” et “ texte ”. ‘Chez Ducrot et Schaeffer (1995), on trouve les distinctions suivantes : “ un énoncé est la réalisation d’une phrase dans une situation déterminée ” (250) ; “ un texte est une chaîne linguistique parlée ou écrite formant une unité communicationnelle ” (294) ; le discours serait “ tout ensemble d’énoncés d’un énonciateur caractérisé par une unité globale de texte ” (294)’, et pourrait coïncider avec un texte (notamment dans le cas de textes écrits), ou se composer de plusieurs textes (dans le cas, par exemple, d’une conversation orale). Chez ‘Dubois et al. (2001), le terme “ énoncé ” est défini comme “ toute suite finie de mots d’une langue émise par un ou plusieurs locuteurs ” (180)’. Le terme “ texte ” n’est pas, dans cet ouvrage, clairement distingué de “ corpus ”, dont il est qualifié de synonyme. Ainsi : “ on appelle texte l’ensemble des énoncés linguistiques soumis à l’analyse : le texte est donc un échantillon de comportement linguistique qui peut être écrit ou parlé (syn. corpus) ” (482). Si l’on s’attarde sur la définition de “ discours ”, on trouve que “ le terme discours désigne tout énoncé supérieur à la phrase, considéré du point de vue des règles d’enchaînement des suites de phrase ” (150). Les distinctions établies par ce dernier ouvrage ne nous paraissent pas suffisamment claires. Il nous semble ainsi important de distinguer “ texte ” de “ discours ” en ce que le texte est un produit, alors que le discours désignerait plutôt tout le processus communicatif inhérent au texte, suivant la distinction établie par Conceição (2001 : 181).

Si nous reprenons à présent les définitions de “ corpus ” proposées plus haut. Il y a certains termes que nous aimerions souligner : ainsi “ ensemble fini d’énoncés ” et “ considérés comme caractéristiques du type de langue à étudier ” chez Galisson et Coste, ou “ ensemble aussi varié que possible ” chez Ducrot et Schaeffer, car ces termes posent la question de l’étendue et de la constitution du corpus. En effet, aussi étendu que soit un corpus, il ne peut être objet d’étude que s’il est limité. Il peut être exhaustif, s’il comprend tous les énoncés caractéristiques du type de langue à étudier (par exemple, tous les discours prononcés par un personnage), ou sélectif, s’il n’en comprend qu’une partie. Dans le cas d’un corpus sélectif (ce qui est souvent le cas), il se doit d’être représentatif. On rejoint ici ‘Sager (1990: 130) : “a corpus is a representative body of texts of a subject field” et (155) “a corpus of texts is assembled (...) according to previously established criteria of representativeness, completeness and relevance”, et Dubois et al. ’ ‘(2001 : 124) : “ le corpus doit être représentatif ”.’

Le choix des textes composant le corpus et sa taille vont évidemment dépendre de ce que l’on veut étudier, et il est impossible de dire a priori de combien de textes doit être constitué un corpus. ‘“There are, as yet, no reliable guidelines as to what quantity of texts represents a representative corpus” (Sager 1990: 130)’. C’est en grande partie l’objectif du travail qui va conditionner la constitution et la taille du corpus. Ainsi, ‘“ les objectifs du travail ont une influence directe sur la constitution du corpus et sur sa dimension ” (Frey 1997 : 257)’. Les corpus destinés à observer la langue “ générale ” (que ce soit pour élaborer des modèles, créer des dictionnaires, etc.) doivent être constitués d’un très grand nombre de textes, et comporter plusieurs millions de mots. Les outils informatiques permettent aujourd’hui de traiter une très grande quantité d’information. Mais, quelle que soit la taille du corpus, à partir du moment où il ne peut être exhaustif, il doit constituer un échantillon ‘“ représentatif de la collection tout entière ” ’(Galisson et Coste 1976 : 131). Ainsi, le corpus doit être homogène, et non pas une collection de différents domaines ; toutefois, la variété des sources permet de contrebalancer les variantes individuelles.

Mais on peut se poser la question des critères à adopter dans la sélection du corpus. Un corpus très étendu est-il forcément plus représentatif qu’un corpus plus restreint ? Quels peuvent être les critères pour juger de la représentativité d’un corpus ? Pearson (1998 : 41-48) passe en revue un certain nombre de critères (taille, constitution des textes, langage écrit et/ou oral, etc.) sans tirer de conclusions “ définitives ” ; en effet, la constitution du corpus dépend en grande partie, voire même totalement, du type de recherche que l’on veut effectuer, tout comme les résultats de la recherche dépendront de la constitution du corpus.

‘On trouve chez Pearson les catégories de corpus suivantes :’

  • ‘corpus général de référence : il s’agit d’un corpus non-marqué (il n’est pas constitué d’une collection de matériel venant de plusieurs domaines spécialisés), relativement homogène, censé être représentatif de toutes les principales variantes d’une langue, ainsi que de son vocabulaire le plus caractéristique. Les corpus très étendus qui servent de base à l’élaboration des dictionnaires de langue générale appartiennent à cette catégorie. ’

  • ‘corpus spécialisé : ce type de corpus ne peut pas être utilisé dans la description de la langue générale ; il est constitué de types de langages marqués (socialement, professionnellement, etc.) qui constituent une certaine déviance par rapport à la langue générale.’

  • ‘corpus-échantillon (“ sample corpus ”) et corpus de textes complets (“ full text corpus ”) : ces deux types de corpus se distinguent par le fait que les corpus-échantillon ne contiennent que des extraits de textes, alors que le corpus de textes complets contient la totalité des textes.’

  • ‘corpus comparable : il s’agit d’un corpus bilingue ou multilingue, constitué d’une collection, en plusieurs langues, de corpus monolingues ayant été établis selon les mêmes procédés pour chaque langue. Ces corpus peuvent être comparés et contrastés en raison de leur traits communs, mais ils sont constitués de textes différents dans chaque langue.’

  • ‘corpus parallèle : il s’agit d’un corpus bi- ou multilingue établi à partir du même texte en plusieurs langues, généralement un ou plusieurs textes originaux et sa (leur) traduction en une ou plusieurs langues.’