2.6 LA SÉLECTION DES TERMES DANS NOTRE CORPUS

2.6.1 Processus de collecte

A partir des textes du corpus décrit ci-dessus, les termes ont été collectés manuellement . Ce choix de collecte manuelle s’est, à l’époque, imposé à nous pour plusieurs raisons. Tout d’abord, à l’époque de cette recherche et dans le contexte où nous nous trouvions, les moyens matériels étaient relativement limités, et surtout peu accessibles. Mais, en fait, c’est essentiellement l’objectif de notre recherche qui a guidé notre choix. En effet, nous ne prétendions pas tirer de véritables conclusions “ statistiques ” de nos résultats, le côté qualitatif était plus important que le quantitatif. Ainsi, même si nous avons obtenu des résultats chiffrés et que nous en tirons des réflexions, notre intention première était plutôt d’observer la nature des termes utilisés dans la presse pour parler de l’économie et du commerce, et leur comportement en contexte.

Un autre aspect, sur lequel nous reviendrons, est le fait que nous avons été confrontée à de nombreuses lexies complexes et groupes lexicalisés. Pour ne citer qu’un exemple, Acordo Voluntário de Restrição às Exportações [accord d’autolimitation des exportations] apparaît, sous cette forme, 12 fois au total. Ces groupes lexicalisés auraient peut-être été plus difficilement repérables, et repérés, si la collecte avait été automatisée.

Il existe différents moyens, lors d’une extraction automatique de termes, de repérer les unités lexicales composées. Ainsi, la plupart des logiciels d’extraction lexicale donnent les concordances, et les index de segments répétés permettent de repérer les formes figées. Or, comme le souligne Daille (1994 : 5), si l’extraction automatique donne des résultats satisfaisants pour ce qui est des syntagmes, elle génère également beaucoup de “ bruit ”, en extrayant des séquences qui, parfois, ne correspondent pas à des termes. Ainsi :

Certains modèles statistiques appliqués à des corpus apportent des informations qualitatives et quantitatives sur les affinités lexicales que peuvent présenter certains mots entre eux. Certaines de ces affinités sont des co-occurrences. Le problème intrinsèque de ces modèles, quels qu’ils soient, se situe dans l’extrême diversité des associations extraites.

(Daille 1994 : 99)’

C’est ce qui a conduit cet auteur à élaborer un modèle particulièrement intéressant d’extraction de termes, modèle qui combine la statistique lexicale (les syntagmes sont repérés d’une part à partir d’un critère de fréquence) et la morphosyntaxe (élaboration de filtres linguistiques qui permettent une première sélection des séquences susceptibles d’être des termes).

Une extraction automatique, dans le cas de notre travail, aurait probablement généré beaucoup de bruit. Tout d’abord, notre recherche ne portait que sur une partie des unités lexicales des textes constituant le corpus : il nous aurait donc fallu doublement trier les candidats-syntagmes obtenus, d’une part sur un critère linguistique (étaient-ils de vrais syntagmes figés ou de simples co-occurrences) et, d’autre part, sur un critère de spécialisation (s’agissait-ils de séquences appartenant au domaine de spécialité qui nous intéressait ou à la langue commune ?).

De plus, il nous a semblé qu’avec une extraction automatique, nous aurions, en quelque sorte, perdu le texte de vue, or le contexte, au sens large, nous semblait primordial. Le fait de nous retrouver dans la position du lecteur, et pas seulement de l’analyste de listes de concordances, nous semblait primordial, car c’est à ce lecteur potentiel de textes spécialisés que se destine notre travail, en particulier la proposition de vocabulaire bilingue portugais / français.

Enfin, la lecture des articles, qui nous a permis de repérer les termes, s’est révélé un travail particulièrement intéressant. Notre corpus étant de dimensions raisonnables, il nous a été possible de parcourir l’ensemble des textes qui le constituent. Il nous semble qu’il aurait été dommage de ne pas avoir accès à ce contexte, car c’est lui qui nous a permis de saisir de nombreux aspects du langage étudié. De plus, comme nous avons effectué la lecture des articles dans un ordre chronologique, l’exercice s’est révélé passionnant car nous avons de cette façon suivi (ou plutôt revu, car nous avions déjà vécu ces événements) l’évolution de la situation économique de ces deux années. Et, si Veja et IstoE faisaient partie des titres que, habituellement, nous lisions assez régulièrement, l’information donnée par des revues spécialisées a constitué une découverte.

Nous avons donc procédé à la lecture des textes et avons simultanément repéré les termes qui nous intéressaient. La question s’est immédiatement posée : quels termes allions-nous retenir? Il fallait trouver un juste équilibre entre la tentation de sélectionner un très grand nombre de termes, y compris ceux appartenant au registre de la langue “ commune ”, parce qu’ils pouvaient avoir un sens particulier dans ce contexte, et celle de ne retenir que les termes très spécialisés. Toutefois, le domaine qui nous intéresse, l’économie, est un domaine dont la terminologie contient des items lexicaux utilisés également en langue commune. De nombreux termes économiques, en particulier au Brésil, sont employés dans la vie quotidienne. Reste à savoir s’ils le sont avec la même signification que lorsqu’ils sont employés par des spécialistes.

Ainsi, nous avons décidé de retenir les termes qui :

  1. faisaient référence à une activité, un fait ou un objet directement lié à l’économie et/ou au commerce, y compris des termes de la langue commune ayant un sens très particulier dans ce contexte(c’est le cas du deuxième exemple ci-dessous, qui signifie littéralement [congélation]).

    ex : fatura [facture] ; congelamento [blocage des prix] ; poupança [épargne] ; exportação [exportation]

  2. désignaient des entités nationales ou internationales jouant un rôle notable dans l’économie et/ou le commerce

    ex : FMI, Fipe, Clube de Paris

  3. désignaient des accords internationaux, unions de pays ou traités ayant pour objectif la coopération au niveau commercial et/ou économique

    ex : NAFTA, Mercosul

Les sigles sont d’un emploi fréquent dans les domaines spécialisés (Cabré 1998 : 137), à tel point qu’ils finissent souvent par être lexicalisés. Leur présence dans le total des termes collectés à partir de notre corpus est d’ailleurs significative (4,3% des termes retenus). Leur présence dans notre dictionnaire nous semble donc parfaitement légitime.