4.4 Quantifier les faits langagiers

4.4.1 Introduction

A partir d'un corpus préalablement étiqueté, nous pourrons à l'aide d'un simple outil informatique calculer le nombre d'occurrences d'unités textuelles qui correspondent à un patron donné (mot, lemme, catégorie morpho-syntaxique, etc.). Etant donné que la construction de ce corpus va durer dans le temps, nous avons pensé à créer un outil de calcul fonctionnant sur des textes bruts.

Dans le cadre du projet DIINAR-MBC (cf. Annexe 3), nous disposions en effet d’un important corpus textuel brut et il fallait sélectionner les unités lexicales les plus fréquentes pour définir un prototype de dictionnaire électronique multilingue (cf. chapitre 6). Pour répondre à ce besoin, nous avons réalisé un programme de calcul de fréquences que nous présenterons dans cette section. Cette description sera précédée par quelques exemples d’applications qui pourront exploiter les résultats retournés par ce programme.