2.3. La dimension du corpus

Pour la plupart des chercheurs, la taille du corpus est un des premiers facteurs à considérer. Sinclair préconise, pour des recherches sur le lexique, de composer un corpus ouvert qui contient des millions de mots parce que la moitié du vocabulaire d’un texte, même très long, peut être constituée de lexies qui n’apparaissent qu’une seule fois (1991 : 18). Pour étudier leur comportement en contexte, il faut disposer d’un grand nombre d’occurrences. De plus, dans un texte, certains des mots qui reviennent le plus souvent sont des articles, des mots grammaticaux. Dans le cas de l’anglais de la météorologie, les mots les plus courants d’un corpus sont : in, the (38 occurrences), cloudy (36), partly (29), low (25), and (22), highs, lows (21), to (19), mph, upper, winds (12), near (11), with (10), of (9) (Bowker et Pearson, 2002 : 31-32).

Bowker et Pearson nuancent le critère de la taille du corpus : « It is very important not to assume that bigger is always better » (2002 : 45). Un petit corpus bien construit peut contenir plus d’informations qu’un vaste corpus ne répondant pas aux besoins du projet. Étudier le vocabulaire de l’industrie à l’aide du British National Corpus (BNC) n’est pas très pertinent : les occurrences de EN nuts sont douze fois plus nombreuses dans le BNC que dans un corpus spécialisé mais le BNC ne donne pas d’indications sur les types de nuts (collar nut, compression nut, flare nut, wing nut) (Bowker et Pearson, 2002 : 46-47). Il n’existe pas de règles pour déterminer la taille idéale d’un corpus. Il faut prendre en considération les besoins du projet, la disponibilité des sources, le temps et les moyens dont on dispose. Cependant, il est reconnu que les corpus utilisés pour étudier les langues de spécialité peuvent être de taille plus modeste que ceux utilisés pour analyser la langue générale.

Dans le présent travail, le but est différent de celui exposé par Sinclair. Il n’est pas question de calculer la fréquence des termes d’Internet, ni d’étudier leur comportement en contexte. Il est inutile de rassembler des milliers de textes extraits de centaines de magazines. Quelques revues seront suffisantes. Ensuite, le repérage et l’extraction des termes seront effectués de manière empirique ⁶⁵ – comme les saisies dans les différentes typologies et la base de données du système d’équivalences – la taille du corpus ne pourra être que modeste.

Les textes seront extraits de 22 revues anglaises, 12 revues françaises et 13 revues espagnoles (voir Annexe 5 et Annexe 6 pour le détail des numéros et des rubriques). Le gain de temps obtenu par la non-informatisation de nos corpus, c’est-à-dire par la suppression des phases de numérisation, ⁶⁶ de nettoyage, de segmentation des unités sera mis à profit pour la construction du système d’équivalences types et son informatisation.

Notes

65.

Avoir un corpus informatisé n’est pas essentiel pour nous, surtout si l’on considère que l’utilisation d’un concordancier ne permettrait pas d’améliorer le repérage des noms composés.

66.

Nous avons été confrontée à un problème d’accès aux sources pour la constitution du corpus espagnol. Il est presque exclusivement composé de photocopies de revues commandées à la BNE. Il serait chronophage de numériser chaque article et de procéder aux corrections puisque nous ne travaillons pas sur la fréquence.