3.3. Repérage des termes

Le point de départ méthodologique que nous avons adopté, rappellons-le, est d’aller des textes où circulent les termes du domaine vers les dictionnaires, et non l’inverse. Autrement dit, à ce stade du travail, nous n’avons pas de liste préexistante de termes que nous cherchons dans le corpus, et en cela la procédure endogène sous-jacente à Syntex coïncide avec notre démarche. Rappelons que l’objectif premier de l’exploitation du corpus est d’extraire une liste de termes (simples et complexes) du domaine de la volcanologie et de comparer cette liste avec ce qu’offrent les dictionnaires étudiés, même si nous serons amenée à opérer la démarche inverse pour affiner l’analyse (aller du dictionnaire vers les corpus).

S’il est vrai que Syntex nous permet de repérer les candidats-termes, la liste des résultats d’extraction qu’il nous fournit n’est pas pour autant exploitable directement, et, comme le souligne Delavigne (2001 : 330), qui a effectué un travail du même type sur son corpus de vulgarisation grâce à l’extracteur de termes Lexter, ancêtre de Syntex, « il reste néanmoins plus que nécessaire de procéder à un travail de sélection de ces termes potentiels ». Nous en donnons pour preuve dans le tableau suivant les résultats « bruts » fournis par Syntex sur notre corpus 412 : se trouve ci-dessous la répartition quantitative par catégorie grammaticale des candidats-termes extraits, de fréquence 1 jusqu’à la fréquence maximale.

Tableau 19 : Répartition par catégorie grammaticale des candidats-termes extraits par Syntex
  Anglais Français
Noms communs simples (N) 7095 7836
Syntagmes nominaux (SN) 46 847 41 350
Adjectifs simples (Adj.) 3583 3438
Verbes simples (V) 2679 2934

Il est évident d’après ces chiffres qu’il faut s’attendre à beaucoup de « bruit » 413 . De même que pour Delavigne (ibid.), il est donc indispensable de faire un tri et d’élaborer dans ce but un certain nombre de critères de rejet et de rétention des candidats-termes, qui permettent d’attribuer à ces derniers divers degrés de validation dans l’interface de Syntex, (fonctionnalité dont nous avons évoqué l’existence plus haut), degrés que nous détaillons à la fin de la discussion sur les critères.

Notes
412.

A titre d’information, Lexter avait fourni un total de 40 420 candidats-termes pour le corpus de Delavigne, constitué de 250 000 mots (Delavigne (2001 : 330)), tandis que Syntex a livré respectivement 60 204 candidats-termes anglais, et 55 558 candidats-termes français pour nos corpus de chacun 400 000 mots.

413.

Terme utilisé en Traitement Automatique de la Langue pour désigner les résultats non-pertinents.