6.1 Le corpus et la recherche linguistique

Dans les paragraphes qui suivent, il convient de rappeler un certain nombre de questions concernant le corpus. Comment définir aujourd’hui un corpus ? Quelle est l’importance de la linguistique de corpus pour les études terminologiques ? Quels types de corpus rendent mieux les résultats de l’analyse terminologique ?

6.1.2 La notion de corpus

Nous commençons donc par essayer de répondre à la question Qu’est-ce qu’un corpus ?

Les réponses trouvées ne s’éloignent pas beaucoup les unes des autres. On note simplement que la spécialisation du terme s’accroît, en liaison avec les recherches menées en sciences de l’information et de la communication, d’une part et du développement des techniques documentaires (ingénierie de la connaissance), d’autre part, conjointement à l’évolution de l’informatique.

Les linguistes concernés par le “TALN” définissent le corpus comme une grande collection de documents qui doit servir à mettre au point des projets de traitements linguistiques, ayant des fonctions représentatives précises. B. Habert penche pour une définition plus restrictive de corpus comme celle emprunté à J. Sinclair. Le corpus est pour ce dernier “une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon du langage”. Ch. Muller le définit, pour des besoins lexicométriques, comme une collection définie de textes.

Si l’on se réfère aux différents dictionnaires, on observe que le terme corpus y fait l’objet d’un consensus large.

Dans le Dictionnaire de linguistique de Georges Mounin (1995 : 89), le corpus est défini comme “ensemble d’énoncés écrits ou enregistrés dont on se sert pour la description linguistique”.

Dans le Dicionário de Termos Linguísticos de l’Association Portugaise de Linguistique, la définition de corpus prend comme sources les travaux de Boutin-Quesnel et la Normalisation Française où la vedette corpusy est définie comme un ensemble de sources (documents oraux et écrits) qui concernent un domaine et à partir duquel on peut extraire les données terminologiques.

Dans le Dictionnaire raisonné de la théorie du langage (1993 : 73)

‘Dans la tradition de la linguistique descriptive*, on entend par corpus un ensemble fini d’énoncés*, constitué en vue de l’analyse* qui, une fois effectuée, est censée en rendre compte de manière exhaustive et adéquate (...)’

Dans le Dictionnaire de didactique des langues

‘Corpus n.m.’ ‘Ensemble fini d’énoncés pris pour objets d’analyse. Plus particulièrement, ensemble fini d’énoncés considérés comme caractéristiques du type de langue à étudier, réunis pour servir de base à la description et, éventuellement, à l’élaboration d’un modèle explicatif de cette langue. Selon la recherche envisagée, il s’agit donc d’une collection de documents, soit oraux (enregistrés et/ou transcrits), soit écrits, soit oraux et écrits.(...) (1976 : 131)’

Par ailleurs, dans les dictionnaires de langue, comme, par exemple le Petit Robert, le corpus est défini dans le domaine de la linguistique comme un ensemble limité d’éléments (énoncés) sur lesquels se base l’étude d’un phénomène linguistique. Pour le Novo Dicionário Aurélio da Língua Portuguesa, le corpus est défini, premièrement, comme un ensemble de documents, de données et d’informations sur un sujet. Deuxièmement, il est défini, dans le champ de la linguistique et de la sémiologie, comme un ensemble fini d’énoncés linguistiques, en vue d’analyses sémiologiques.

Finalement, l’ISO préconise

6.1.2.2 corpus : Ensemble de sources relatives à un domaine.

6.1.2.1. source : Texte oral ou écrit d’où une donnée terminologique (6.1.5) est extraite.

6.1.5 donnée terminologique : Donnée relative à une notion (3.1) ou à sa désignation (5.3.1)

NOTE - Les catégories de données terminologiques sont : l’indicatif de grammaire (6.1.5.2), l’indicatif de langue (6.1.5.3), l’indicatif de pays (6.1.5.4), la cote d’acceptabilité terminologique (6.1.5.5), la mention du domaine (6.1.5.6), la définition (4.1), le contexte (6.1.5.7), l’illustration (6.1.5.8), la note (6.1.5.9), la source (6.1.2.1), etc.

3.1 notion : Unité de pensée constituée par abstraction à partir des propriétés communes à un ensemble d’objets (2.1)(...)”(ISO 1087: 1990 (E/F))

En résumé, le mot corpus est présenté unanimement comme une collection de textes, constitué par des critères définis, concernant un sujet (domaine) afin de servir d’échantillon à une analyse ou description linguistique.

On peut ajouter, qu’outre le caractère de collection (ensemble d’énoncés) 408 , assujetie à des critères de sélection et d’intérêts spécifiques, le corpus se présente comme une quête de documentation qui va servir, au premier chef, à l’encodage et aux performances du travail terminologique. Les préceptes chomskyens peuvent ainsi paraître remis en cause par une nouvelle problématique linguistique.

Insistons sur le fait dans la perspective terminologique cette documentation est constituée de textes qui seront soumis à l’analyse terminologique. L’ensemble de ces textes ne doivent pas s’éloigner des principes théoriques et méthodologiques adoptés pour l’analyse terminologique d’un domaine de connaissance spécifiquement circonscrit. En effet, ils doivent répondre aux questionnements posés par le projet terminologique. Un corpus ne peut pas s’octroyer la fonction de présenter un paradigme de connaissances mais il peut, par un traitement adéquat, contribuer à son éclat.

Dans la perspective terminologique, les corpus proviennnent presque intégralement de sources écrites, voire informatisées, représentatives de domaines à traiter. Ces sources vont servir à des usages multiples : analyses de discours spécialisés, traitement de champs conceptuels (élargis souvent aux réseaux et aux trames conceptuelles) 409 et de champs terminologiques 410 , extraction et traitement de terminoclatures, etc. Le corpus acquiert un statut de base documentale 411 .

On considère souvent que le corpus est forcément subjectif et aléatoire. Soit ! Mais cette “choice chance” rend possible la mise en place d’analyses par des méthodes adaptées, répondant à des buts scientifiques spécifiques et conduisant à des résultats concluants.

Il est à noter que, depuis, environ, une quarantaine d’années les méthodes de corpus deviennent importantes non seulement pour la Linguistique mais également pour la Terminologie. Le concept/terme corpus accuse, de la sorte, un processus d’hyperspécialisation, fruit de l’éclatement des disciplines, de la contribution des réseaux interdisciplinaires, sans oublier le développement des nouvelles technologies. La dynamique terminologique est parlante : corpus ouvert, corpus fermé, corpus de référence, corpus équilibré, corpus textuel, corpus spécialisé, corpus électronique, corpus terminologique 412 , etc., témoignent avec force de l’importance que l’utilisation du procédé d’analyse par corpus a pris dans certaines disciplines.

Comment procéder pour constituer le corpus adéquat?

Il est banal de dire qu’au départ il faut trouver de bonnes sources documentaires, pertinentes, exhaustives et représentatives des thèmes de la recherche. Ce qui n’est pas banal c’est de constater qu’aujourd’hui on est confronté au problème presque universel de l’accroissement exponentiel de la masse de documents spécialisés 413 que même l’ordinateur (dans le cadre au départ d’extraction automatique du contenu du document) n’arrive pas totalement à traiter. Répertorier tous les écrits et procéder au stockage demeure un défi permanent, qui pose actuellement, un certain nombre de problèmes à l’ingénierie moderne de la connaissance et aux pratiques documentaires sophistiquées.

La documentation résulte de la collecte et de l’organisation de l’information contenue dans les documents (textes) destinée à être emmagasinée, utilisée et diffusée par des structures matérielles diverses. La documentation, en tant qu’activité de recherche, sélection et classement de données devient complémentaire de l’activité terminologique. Si la Terminologie se sert en amont de la documentation comme source d’information et comme outil de travail elle a un rôle complémentaire, très souvent nécessaire, dans les autres étapes du travail terminologique.

Felber classe la documentation à intérêt terminologique en trois catégories : les documents terminologiques (ouvrages de référence, manuels,...), les documents de données terminologiques (vocabulaires normalisés, dictionnaires spécialisés, banques des données), les documents de données factographiques (surtout les documents émis par des organismes de normalisation, centres de terminologie, etc.).

Rondeau, dans la même perspective, propose deux types de documentation interconnectés, servant de sources d’information et d’outil de travail : la documentation de référence qui servira à une double consultation - l’acquisition de la compétence terminologique et l’acquisition des connaissances sur le domaine ; et la documentation terminologique (documents de travail) qui servira au repérage, collecte et traitement des termes ainsi qu’à leur analyse linguistique (morphologie, syntaxe, sémantique, pragmatique, stylistique, etc) 414 .

La diversité de la documentation proposée par les théoriciens de la Terminologie, les méthodes et les manuels de terminologie indiquent, en somme, que le terminologue pour commencer un travail terminologique doit savoir quelle documentation choisir, et pour procéder à la délimitation du domaine et pour son traitement textuel, discursif et lexical. En fait, il doit savoir utiliser les compétences cognitives et méthodologiques nécessaires à l’acquisition et à la structuration des connaissances du domaine traité, et à l’organisation et systématisation du travail. C’est seulement après cela que le corpus peut être établi. En d’autres termes, le corpus doit correspondre à la nature et aux spécificités du thème, et adapté aux finalités du travail en cours.

Il y a quelques critères assez répandus sur la nature, la qualité et les fonctions d’une documentation d’intérêt terminologique. Cabré indique qu’elle doit être pertinente, spécialisée (en excluant ici les constructions syntagmatiques utilisées en discours de vulgarisation), complète (tous les éléments du thème), originale (pour permettre la représentation de la structure conceptuelle d’un domaine) et explicite (références bibliographiques rigoureuses).

Notes
408.

Des textes complets ou simples extraits.

409.

Sont sous-jacentes ici les questions concernant les connaissances et le découpage des domaines, des concepts en situation interdisciplinaire et la diversité des énoncés traitant d’un même ensemble de concepts.

410.

La notion de champ a été définie par A. Rey (1992) comme un ensemble de termes, des unités lexicales, liées par une structure de relation. Kocourek définit champ terminologique comme un ensemble d’unités lexicales liées par une relation formelle et/ou sémantique.

411.

L’idée de “fréquence intuitive” (Rey-Debove) et de “fréquence objective” (C. Tetet) nous semblent assez pertinentes dans le cas notamment du choix de notre corpus. En effet, il est rare qu’en tant que “terminologue-chercheur” on ne soit pas spécialiste, en quelque sorte, sur le terrain, lecteur invétéré de textes spécialisés, ayant acquis des connaissances (objectives) nécessaires à produire un travail terminologique/terminographique de qualité.

412.

Le corpus ouvert, comme le nom l’indique, est nourri de nouveaux documents chaque fois que l’analyse en cours l’exige. En revanche, le corpus fermé est soumis à des critères d’extension comme, par exemple, des limites chronologiques, délimitées au préalable. Le corpus équilibré se rapporte à l’idée de documents homogènes, cohérents, simillaires,etc. Le corpus spécialisé est déterminé par une situation de communication ou par un domaine. Le corpus électronique est un corpus construit à partir d’un encodage standardisé, permettant, en principe, un nombre illimité d’extraction de termes ou autres catégories. Le corpus textuel, le corpus terminologique et le corpus de référence (les terminologues utilisent souvent ce terme ainsi que celui de corpus de base ou d’analyse) se rapportent plus directement à l’analyse terminologique. Le premier est celui qui contient d’une manière exhauxtive des documents complets. Le deuxième désigne l’ensemble des documents concernant une thématique ou un domaine pour en extraire des terminologies. Le troisième désigne un ensemble sélectif d’échantillon de documents.

413.

Le CNRS, par exemple, avec une durée de vie d’à peine soixante ans, compte aujourd’hui plus de vingt mille chercheurs et plus d’un millier de laboratoires. Et on ne compte pas les autres laboratoires de recherche. Ce qui est certain est que les publications doublent tous les quinze ans.

414.

Rondeau classe les documents par ordre de fonctions et de formes : documents sur les écoles de terminologie, les principes directeurs, les méthodes, les guides d’utilisateurs, les documents à contenu proprement terminologique (livres, revues spécialisées, actes de congrès, rapports de recherche, thèses, vocabulaires, thesaurus, glossaires, lexiques, dictionnaires généraux et spécialisés, enciclopédies, banques de termes, fichiers automatisés, etc), bulletins d’organismes et de réseaux nationaux et internationaux.