Après la lemmatisation d'un texte, chaque vocable comporte une fréquence c'est-à-dire le nombre de ses occurrences. Nombre d'analyses de fréquences ne portent pas sur des textes lemmatisés. Ainsi, les listes de fréquences issues d'un corpus de français parlé d'un million de mots (Corpaix, version mai 2000) et celles extraites du CD-ROM du Monde Diplomatique (1987-1997) 234 sont comparables entre elles dans la mesure où ce sont des listes de fréquences de formes non lemmatisées. En revanche, elles ne comportent pas des populations comparables : un million de mots pour le corpus oral et 11 139 376 unités pour le corpus écrit. Nous disons unités pour souligner une différence supplémentaire, qui entrave la comparaison, issue du fait que les signes de ponctuation du texte écrit ont été comptabilisés de la même manière que les unités lexicales. De plus, la question de la norme lexicale est cruciale. On voit dans le tableau ci-dessous que la norme lexicale n’est pas la même pour le corpus IRC que pour les deux autres : c’est est considéré comme une unité lexicale dans nos corpus, alors qu’il en compte deux dans les deux autres corpus.
Plus le texte considéré est grand, plus le nombre de vocables 235 est grand. Comparer des listes de fréquences pourrait s'envisager de deux manières : ne prendre en compte que le rang des unités revient à gommer la proportion relative des unités dans le texte et travailler sur des proportions oblige à considérer l'ensemble des listes ou à n'en conserver qu'une proportion égale.
Corpaix | Monde Diplomatique | Corpus IRC | |
1 | EST | , | de |
2 | DE | DE | je |
3 | C' | . | pas |
4 | EUH | LA | salut |
5 | IL | L' | c'est |
6 | ET | LES | le |
7 | QUE | ET | tu |
8 | LE | LE | ça |
9 | ON | DES | j' |
10 | LA | À | à |
11 | À | 1 | la |
12 | JE | D' | les |
13 | PAS | - | et |
14 | LES | EN | un |
15 | A | DU | que |
16 | UN | UN | en |
17 | ÇA | UNE | moi |
18 | DES | EST | est |
19 | EN | DANS | une |
20 | QUI | QUE | t' |
21 | L' | ) | pour |
22 | Y | ( | non |
23 | QU' | QUI | il |
24 | UNE | PAR | l' |
25 | MAIS | IL | mais |
26 | CE | POUR | ai |
27 | D' | A | vous |
28 | OUI | AU | oui |
29 | TU | PLUS | qui |
30 | J' | : | on |
31 | DANS | SUR | des |
32 | POUR | PAS | tout+le+monde |
33 | VOUS | SE | va |
34 | ILS | S' | toi |
35 | FAIT | NE | me |
36 | TOUT | QU' | suis |
37 | ÉTAIT | CE | bien |
38 | PLUS | N' | d' |
39 | LÀ | AUX | ce |
40 | ALORS | SONT | mon |
41 | ELLE | MAIS | si |
42 | DONC | AVEC | es |
43 | PARCE | ONT | avec |
44 | DU | OU | a |
45 | NON | ON | sur |
Ce qui apparaît dans les listes de fréquences, c'est que les items les plus fréquents sont des items grammaticaux 236 . L'unité 'de' est fréquente à rang égal dans les deux corpus. Mais on se heurte très vite au défaut de lemmatisation 237 . 'est' peut aussi bien représenter le point cardinal que le verbe et s'il est permis de supposer que les corpus présentent pour cette unité une égale répartition des différents lemmes attachés à 'est', rien ne permet de comparer 'que' entre les deux listes sans informations sur les fonctions qu'il prend dans les textes. Et l’observation peut se faire dans l’autre sens, puisqu’une même unité, présentant des variantes contextuelles, ou des flexions différentes, se trouve scindée en deux unités dans les listes de fréquences.
Les listes de fréquences qui ne sont pas lemmatisées ne permettent guère que l'observation d'unités qui ne seraient ni polyvalentes ni invariables. L'examen des listes ci-dessus rappelle que la situation de monovalence est rare dans les langues et qu'on ne peut la reconnaître à la limite que pour quelques unités : 9 pour les deux corpus confondus, dont 3 pour le corpus le monde diplomatique et 6 pour le corpus Corpaix.
Les listes de fréquences de formes lemmatisées sont plus rares, par le simple fait qu'elles requièrent un investissement temporel plus important. Pour le français, une des listes de fréquences les plus utilisées pour les observations de l'oral est celle de Gougenheim (1964) 238 qui porte sur des formes lemmatisées et sous-catégorisées pour la classe lexicale et a servi à l'établissement du vocabulaire du français fondamental. Il existe de nombreuses autres listes de fréquences 239 de référence, réalisées principalement sur des corpus littéraires. Si nous appliquons les mêmes critères de lemmatisation que Gougenheim (1964), nous obtenons pour nos corpus la liste de fréquences suivante.
numéro d'ordre | lemmes | fréquence |
1 | être | 2001 |
2 | je | 1663 |
3 | de | 1260 |
4 | pas (neg) | 1006 |
5 | salut | 957 |
6 | ce | 952 |
7 | tu | 912 |
8 | avoir | 822 |
9 | ça | 646 |
10 | le (art) | 614 |
11 | il(s) | 605 |
12 | à | 546 |
13 | la | 527 |
14 | et | 500 |
15 | les | 500 |
16 | un (det) | 483 |
17 | que (conj) | 423 |
18 | moi | 399 |
19 | une (det) | 353 |
20 | me | 334 |
21 | non | 331 |
22 | pour | 327 |
23 | mais | 308 |
24 | vous | 295 |
25 | oui | 287 |
26 | on | 276 |
27 | tout le monde | 270 |
28 | ne | 252 |
29 | dire | 247 |
30 | des | 240 |
31 | en (prep) | 231 |
32 | toi | 215 |
33 | se | 188 |
34 | qui | 185 |
35 | bien (adv) | 184 |
36 | mon | 184 |
37 | sur (prep) | 171 |
38 | alors | 166 |
39 | bon (interj) | 163 |
40 | avec | 161 |
Cette liste a été obtenue à partir de nos principes de lemmatisation en regroupant certaines unités, de sorte qu'elle soit comparable à celle que donne Gougenheim (1964).
numéro d'ordre | lemme | répartition | Fréquence |
1 | être | 163 | 14083 |
2 | avoir | 163 | 11552 |
3 | de | 163 | 10503 |
4 | je | 162 | 7905 |
5 | il(s) | 160 | 7515 |
6 | ce (pro) | 163 | 6846 |
7 | la (art) | 163 | 5374 |
8 | pas (neg) | 158 | 5308 |
9 | à (prép) | 163 | 5236 |
10 | et | 161 | 5082 |
11 | le (art) | 163 | 4957 |
12 | on | 128 | 4266 |
13 | vous | 154 | 4202 |
14 | un (art) | 162 | 4188 |
15 | ça (pro dem) | 159 | 3972 |
16 | les (art) | 162 | 3815 |
17 | que (conj) | 162 | 3537 |
18 | ne | 150 | 3283 |
19 | faire | 162 | 3174 |
20 | qui (relatif) | 160 | 3096 |
21 | oui | 154 | 2935 |
22 | alors | 155 | 2854 |
23 | une (art) | 163 | 2780 |
24 | mais | 159 | 2768 |
25 | des (art indef) | 161 | 2646 |
26 | elle (s) | 134 | 2462 |
27 | en (prep) | 161 | 2405 |
28 | dire | 160 | 2391 |
29 | y | 143 | 2391 |
30 | pour | 161 | 2076 |
31 | dans | 162 | 2066 |
32 | me | 152 | 2014 |
33 | se | 161 | 1993 |
34 | aller | 161 | 1876 |
35 | bien (adv) | 163 | 1697 |
36 | du | 154 | 1658 |
37 | tu | 105 | 1536 |
38 | en (pronom adverbe) | 153 | 1501 |
39 | au | 161 | 1490 |
40 | là | 153 | 1468 |
Trente et un items sont communs aux deux listes. Il s'agit exclusivement de mots grammaticaux à l'exception des vocables être et avoir pour lesquels il n'y a pas eu de distinction entre les occurrences des auxiliaires et les occurrences des verbes pleins, conformément aux décisions prises dans le travail de Gougenheim (1964). Les unités communes sont, par ordre alphabétique, les suivantes :
à (prép), alors, avoir, bien (adv), ça, ce (pro), de, des (art indef), dire, en (prep), et, être, il(s), je, la (art), le (art), les (art), mais, me, ne, on, oui, pas (neg), pour, que (conj), qui (relatif), se, tu, un (art), une (art)., vous.
Les items présents dans notre liste et absents de la liste pour le français fondamental sont avec, bon (interj), moi, mon, non, salut, sur (prep), toi, tout le monde.Pour les unités salut et tout le monde, leur fréquence provient de la fréquence des séquences d'ouverture de nos corpus et de leur grande uniformité. Les pronoms disjoints et déterminants possessifs, appartenant à la catégorie des déictiques, ainsi que bon ne sont pas surprenants dans ce type d'usage linguistique.
L'écart entre les ordres des items communs aux deux listes est parfois important. La moitié des items ne présente pas de gros écart, c'est le cas de être, de, ce, un, une, se, pas, oui, les, le, je, et, en (prep), dire, bien. Cependant l'appréciation de l'écart entre les ordres ne va pas sans prendre en compte les courbes de fréquences. On remarque en effet qu'il survient des chutes importantes de la fréquence entre les plus hauts rangs. Dans nos corpus, les 10 unités les plus fréquentes représentent 22,18 % de l'effectif total et les 20 unités les plus fréquentes représentent près du tiers de l'effectif total soit 31,74 %. Dans le corpus du français fondamental on obtient pour les mêmes observations respectivement 25,44 % et 37,77 %.
Il convient dans ce cas de préférer la comparaison des fréquences relatives. Nous nous reportons à une technique courante en statistique lexicale et dénommée normalisation par Biber et al. (1998:263) :
"La normalisation est une façon d'ajuster les fréquences de textes de différentes longueurs de sorte qu'elles puissent être comparées de façon précise. Le nombre total de mots dans chaque texte doit être pris en considération lorsqu'on norme les fréquences. Particulièrement, la fréquence brute doit être divisée part le nombre de mots dans le texte, puis multiplié par la base choisie pour la normalisation.". 240
On note une fréquence relative plus importante pour les unités être, avoir, de, il, et je dans le corpus du français fondamental et une proportion plus importante pour les unités dans elle(s) ne, et pour dans notre corpus.
Véronis, J. Université de Provence Aix-Marseille Page personnelle http://www.up.univ-mrs.fr/~veronis
Nous employons la terminologie de Muller (1992) : "élément du vocabulaire d'un texte" qui dépend de la norme lexicologique adoptée.
Et ceci est également valable pour nos corpus, ce qui écarte l’hypothèse d’un style télégraphique (ce dernier étant reconnu pour faire l’économie des mots grammaticaux).
Cf. chapitre 4.
L'initiative de l'établissement d'un dictionnaire et d'une grammaire du français fondamental revient à l'UNESCO (organisation des Nations Unies pour la science, la culture et l'éducation) qui créa en 1947, un comité linguistique dans le but de susciter " la diffusion des langues de communication comme l'un des moyens les plus efficaces de répandre largement l'éducation de base ". Le Centre de recherche et d'étude pour la diffusion du français (CREDIF) dont Georges Gougenheim, professeur à la Sorbonne fut le directeur, naquit à cette occasion en 1959. Malgré les nombreuses critiques qui ont pu être adressées à ces travaux, des outils de traitement automatique du français utilisent leurs résultats. C'est le cas, par exemple, de Cordial (http://www.synapse-fr.com/).
INALF (1971) ; Juilland, Brodin, Davidovitch (1970) ; Engwall (1984)
"Normalization is a way to adjust raw frequency counts from texts of different lengths so that they can be compared accurately. The total number of words in each text must be taken into consideration when norming frequency counts. Specifically, the raw frequency count should be divided by the number of words in the text and then multiplied by whatever basis is chosen for norming".