2.2.2.6. Textes d’origine géographique précise

Ce critère est mentionné par Delavigne (2001 : 265) qui l’utilise essentiellement dans un but d’homogénéisation – tous ses textes sont écrits en français de France.

En ce qui nous concerne, le lecteur notera sans doute qu’alors que le corpus français est très homogène 375 au niveau de la variété de langue (français de France), il n’en va pas de même du corpus anglais (anglais des Etats-Unis, du Canada, du Royaume-Uni). Cette disparité régionale s’explique essentiellement par la difficulté que nous avons rencontrée à apparier le corpus anglais au corpus français, qui a été constitué en premier.

Cette disparité, qui pourrait être perçue comme un gros désavantage pour un corpus de langue générale, l’est sans doute moins pour un corpus de langue de spécialité. Ainsi, si l’on en croit Cottez (1994: 13), les termes peuvent ne pas être marqués géographiquement : « l’U[nité lexicale] T[echnique ou] S[scientifique] [...] n’est pas caractéristique d’une classe, ni naturellement d’une région, d’un pays francophone (belgicisme, canadianisme…). » Cependant, ce n’est pas l’avis, entre autres, de Cabré (1998 : 143). Quoi qu’il en soit, il paraît légitime de mélanger dans un même sous-corpus (ex. : presse généraliste) plusieurs variétés d’anglais à condition qu’il soit possible d’identifier la source (donc, la variété géographique) d’où provient le terme afin d’effectuer d’éventuelles comparaisons 376 .

Notes
375.

Rappelons malgré tout que troisarticles de Québec Sciences ont été inclus, mais cela ne représente que 2410 mots sur un total d’environ 400 000.

376.

Signalons que chaque source est clairement codée dans le corpus, ce qui peut permettre de faire des analyses contrastives, même si les sous-corpus n’ont pas été constitués en fonction de la variété de langue utilisée, étant donné que l’objectif de départ n’était pas de faire une étude contrastive de variété géographique.