2.3.2 Les limites du corpus

Nous avons vu que le corpus doit être un échantillon représentatif de textes. Il nous semble que c’est sur ce point que se situe l’éventuelle faiblesse du corpus. En effet, tout comme les sondages d’opinion réalisés sur “ un échantillon représentatif de la population ”, on peut considérer qu’un corpus est représentatif de “ sa ” population de textes, et non pas de la langue tout entière. On rejoint ici le problème de tout travail sur échantillonnage. Est-il légitime de tirer des conclusions sur le tout à partir d’une partie?

Bien évidemment, il est impossible de travailler sur “ l’ensemble de la langue ”, et le but du corpus est de réduire et de rendre analysable ce qui, en totalité, serait inanalysable. La constitution du corpus va donc être le garant de sa légitimité. Et, pour citer ‘Sinclair (1991 : 13) “ the results are only as good as the corpus ”’.

Pour aussi complet que soit un corpus, il est nécessairement limité (c’est d’ailleurs sa raison d’être) et donc conditionné par le temps et le lieu. Les auteurs de recherches à partir de corpus essaient de corriger cet aspect en équilibrant les sources et en remettant régulièrement les corpus à jour; c’est le cas des travaux de grande envergure sur la langue générale, où le corpus est en permanente évolution et croissance, comme le projet Cobuild de l’Université de Birmingham pour la langue anglaise. Toutefois, lorsqu’il s’agit de recherches plus limitées, qui s’attachent à un plus petit nombre de textes, on travaille véritablement sur une “ tranche ” de langue, avec les limitations que cela comporte. Le type de “ textes ” choisis conditionne toute la recherche et ses résultats.

Ainsi, les spécialistes et les écrivains ne fournissent pas un échantillon de langage commun et réaliste, mais un langage marqué (voir Sinclair, 1991 : 17). Les textes de presse, comme nous l’avons signalé plus haut, ne sont qu’une variante de la langue, et non pas un échantillon fiable. Comme le dit ‘Grundy (1996 : 130) “ la périphérie de la langue, qui va de l’argot et du jargon à la terminologie spécialisée, change très rapidement ”’, et les corpus sont très sensibles à ce phénomène de mode. Les “ mots à la mode ” et les néologismes ne sont que des “ nouveautés ” et non pas des gages de représentativité de la langue. Les textes de presse sont certainement encore plus sensibles à ce modisme que les autres textes. Nous pouvons citer comme exemple, une nouvelle fois, la recherche de Alves (1990) qui observe la néologie technico-scientifique en portugais-brésilien dans un corpus de textes de presse.