1.2. Quel type de corpus constituer ?

1.2.1. Les différents types

Bowker et Pearson (2002 : 11-13) distinguent plusieurs genres de corpus :

  • Corpus de référence (« general reference corpus ») et corpus spécialisé (« special purpose corpus »). Un corpus de référence reflète une langue et permet de faire des observations d’ordre général. Ce type de corpus contient des données orales et écrites, c’est un mélange de plusieurs textes de différentes natures (journaux, fiction, reportages, débats, etc.). Un corpus spécialisé est axé sur l’aspect particulier du vocabulaire d’un domaine, sur un certain type de textes, sur le langage des membres d’un groupe social (les jeunes, la communauté hispanophone de la Californie, etc.). Utilisés conjointement, un corpus de référence et un corpus spécialisé peuvent permettre d’identifier les différences entre un langage spécialisé et la langue générale.
  • Corpus écrit et corpus oral. Un corpus oral est constitué de transcriptions de discours oraux (conversations, émissions, cours, etc.) et un corpus écrit contient des textes destinés à être lus. Certains corpus, comme le British National Corpus, sont un mélange des deux.
  • Corpus monolingue et corpus multilingue. Contrairement à un corpus monolingue, un corpus multilingue rassemble des textes dans au moins deux langues. Les corpus multilingues peuvent être divisés en corpus parallèles et en corpus comparables. Un corpus parallèle est constitué de textes en langue source accompagnés de leurs traductions en langue cible. Un corpus comparable ne contient pas des traductions mais des textes écrits en langue source qui ont tous le même sujet, la même fonction de communication, qui sont de même nature (manuel d’instruction, rapport technique, etc.) et ont des dates de publication proches.
  • Corpus synchronique et corpus diachronique. Un corpus synchronique est une « photo » de l’usage d’une langue pendant un temps limité. Un corpus diachronique sert à mesurer l’évolution d’une langue sur une longue période.
  • Corpus ouvert et corpus clos. Un corpus ouvert (« monitor corpus ») est constamment étendu. C’est le type généralement utilisé en lexicographie. Un corpus clos reste tel quel. Une fois qu’il est compilé aucun texte n’est ajouté.
  • Corpus « apprenants » (« learner corpus »). Ce type de corpus contient des textes écrits par les apprenants d’une langue étrangère. Il est intéressant pour effectuer des comparaisons avec des textes écrits par des natifs. Il fait ressortir les erreurs types des apprenants.

Les termes, qui seront au cœur de la présente étude, seront extraits d’un corpus :

  • trilingue. Le corpus est composé de textes anglais, français et espagnols,
  • comparable. Les textes anglais, français et espagnols abordent les mêmes thèmes,
  • synchronique. Les revues datent de 2001 et 2002,
  • spécialisé. Les spécialistes sont les internautes,
  • écrit. Les textes ont été produits dans le but d’être lus,
  • clos. Aucun ajout de nouveaux textes n’aura lieu avant la fin de cette recherche. Les articles constituant notre corpus ont été choisis car, au travers des thèmes abordés – navigation, moteur de recherche, sécurité, piratage, e-commerce, réseau, messagerie instantanée, courrier électronique, chat, etc. –, ils touchent un très vaste public.