6.1.3 Les apports de la “nouvelle” linguistique : la méthode du corpus

L’utilisation de corpus en linguistique se généralise après les “années chomskyennes”, notamment par le courant distributionnaliste 415 . Mais on doit aux travaux des sociolinguistes un premier aperçu sur les techniques d’analyse par la constitution de corpus 416 .

La première phase correspond à deux événements marquants en langue anglaise : la constitution des corpora Survey of English Usage (Angleterre, Quick et Greenbaum), le Brown Corpus (U.S.A, W.N Francis et Kucera, un million de formes), le projet Collins COBUILD Dictionary of English Language de J. Sinclair (corpus d’environ sept millions de formes, de l’Université de Birmingham, 1987). Il est important de rappeller l’importance de ces événements car jusqu’à la première moitié de ce siècle le traitement de la documentation était faite manuellement.

Les expériences se sont multipliées, et avec l’essor des études terminologiques, la constitution de corpus de dimensions multiples voit le jour. Les premiers corpus sont encore de taille modeste, n’excédant généralement pas plus d’un million de formes. Ils sont constitués, pour la plupart, de textes écrits.

La deuxième phase est liée aux développements exponentiels de la puissance de traitement des ordinateurs. C’est là que commence l’époque des grands corpus. On peut penser, par exemple, à Frantext (cent soixante millions de mots qui a servi à la rédaction des dix sept volumes du TLF, dirigé par B Quemada sous l’égide de l’INALF, dont 20% du corpus concernant le langage spécialisé).

Le corpus devient plus qu’un recueil de textes, il sera le support électronique de théories linguistiques (sémantique textuelle, grammaires actives ou descriptives, etc.), sera informatisé, avec des outils d’interrogation et d’annotation divers (analyseurs morphologiques, syntaxiques, sémantiques ; concordanciers, étiqueteurs, etc), utile au système de “traitement du langage naturel”(Natural Language Processing), au développement de la Traduction automatique (TAO, etc.), à l’enseignement des langues assisté par ordinateur (computer-assisted language learning). Il est construit pour alimenter des grandes bases et banques de données, ainsi que des bases de connaissances 417 . Constituer des corpus de discours spécialisés poursuit des objectifs d’analyse syntaxico-sémantiques qui permettent non seulement d’extraire les terminologies mais également d’analyser la “grammaire du discours spécialisé”.

Le corpus est devenu pour la Linguistique, la Terminologie, l’ingénierie documentaire 418 , un objet d’analyse fondamental. L’activité terminographique devient une véritable activité descriptive.

Aujourd’hui, le corpus occupe une place centrale dans l’élaboration des projets de la Terminologie Textuelle et, de surcroît, contribue, ce faisant, à l’évolution de la Terminodidactique. B. Habert (1997 : 15) constate d’ailleurs que

‘Les corpus représentent des ressources importantes pour l’apprentissage des langues : phénomènes collocatifs et phraséologie, microsyntaxe des entrées lexicales, étude des langues de spécialité, typologie des textes.’

Pourquoi les linguistiques de corpus constituent-elles un espoir pour les pratiques terminographiques et traductologiques? Les résultats prévus pour les systèmes experts dans l’évolution des théories et résultats linguistiques n’ont pas été à la hauteur des promesses. L’utilisation de la linguistique de corpus représente un tournant méthodologique, surtout en ce qui concerne l’extraction automatique et semi-automatique des termes et contextes, pour une analyse plus réel et approfondie des discours spécialisés et de leurs terminologies. Elle représente un enjeu considérable pour les recherches sémantiques. Dans ce sens les travaux sont multiples et variés : analyse de contenu, théorie sens-texte, etc.

Au départ, l’informatique a servi la pratique terminologique surtout pour ce qui était de la course à la normalisation des termes, à la quête de maintien de leur univocité et monoréférentialité. C’est l’époque où l’on commence à utiliser le mot-valise Terminotique 419 , un mariage consenti entre terminologie et informatique, faisant naître quelques bases de données relationnelles pour le stockage, le traitement et la diffusion de termes : EURODICAUTOM, Normaterm (AFNOR), Termium, etc. Ces bases sont utiles aux utilisateurs terminologues ainsi qu’aux traducteurs. La terminotique est l’interface nécessaire aux connexions entre l’informatique et la terminologie. Elle se consacre surtout à des recherches pour l’élaboration de logiciels et des programmes utiles aux travaux terminographiques. Quelques exemples des plus simples peuvent être dénombrés : les vérificateurs d’orthographe et de grammaire, les gestionnaires et outils de téléconsultation de bases et de banques de données (et aujourd’hui banque de connaissances), les programmes de traitement automatique et statistique de corpus textuels (Hyperbase, Stablex, etc.)

Parce que l’analyse terminologique ne peut pas oublier que terme/concept et référent sont indissociables, les techniques de corpus, mettant en avant les textes spécialisés, représentent un enjeu considérable en sémantique textuelle et, notamment en ce qui concerne l’emploi des terminologies et même de leur modalités d’usage au sein du discours spécialisé.

Notes
415.

L’analyse distributionnelle s’appuie sur un corpus représentatif en vue de développer des analyses syntaxiques. Pour la linguistique descriptive distributionnelle, la description doit provenir du corpus et point “fabriquée”.

416.

Il s’agit d’approches lexicales sur corpus pour détermination de vocabulaires spécialisés. On signale, à titre d’exemple, L. Guilbert (vocabulaire de l’aviation, période 1944-1960), J. Dubois (vocabulaire politique et social, période 1869-1872), P.J. Wexler (vocabulaire des chemins de fer , période de 64 ans), Christiane Tetet (vocabulaire de l’alpinisme).

417.

Comme des systèmes hiérarchiques, annotés, produits avec une grande contribution des nouvelles théories et pratiques documentaires. Dans l’ouvrage Les linguistiques de corpus (cf. bibliographie), quelques exemples de corpus annotés et arborés sont dénombrés : Brown (un million de formes, textes américains, publiés en 1961, quinze genres de textes), LOB (équivalent anglais de Brown), Susanne (extraits pris en Brown), London-Lund ( pour l’anglais parlé, 435.000 mots), Lancaster /IBM Treebank (triois millions de mots), Helsinki (pour l’étude diachronique de l’anglais, 1,5 millions d emots, époque 750 à 1700), Archer (pour l’étude diachronique de l’anglais etd e l’américain, 1,7 million de mots, 1650 à 1990), BNC (100 millions d e mots, écrit/oral), Penn Treebank (4 millions de mots,sources IBM, Brown). Et le français beaucoup moins cité : Menelas (corpus sur les maladies coronairiennes, 84.830 occurrences et 6191 formes), Mitterrand I (305.124 occurrences et 9.309 formes), Enfants (15.523 occurrences et 1305 formes). Les corpus étiquetés (segments de textes + étiquettes du type catégorie grammatical et lemme, par exemple) apparaissent dans les années quatre vingts et les corpus arborés (recherche de candidats termes, des relations syntaxiques, phraséologies,...) de taille plus importante que les pécédents surgissent à partir des années 90.

418.

Il existe une grande variété de travaux sur les sources d’information et de la communication. Les perspectives deviennent de plus en plus pluridisciplinaires et axées sur la problématique de l’organisation des connaissances intégrées dans des systèmes de représentation et de recherche d’information : épistémologie et modèles de traitement du langage, pratiques d’indexation et amélioration de la recherche d’information. Un bon exemple est celuii de l’International Association for Knowledge Organization (ISKO, 1989) qui veut construire un espace de collaboration interdisciplinaire entre les spécialistes de la documenation et ceux des sciences du langage, des sciences cognitives, de l’informatique (avec l’IA).

419.

Aussi connue comme “terminologie automatisée”.