7.2. Listes de fréquences

Après la lemmatisation d'un texte, chaque vocable comporte une fréquence c'est-à-dire le nombre de ses occurrences. Nombre d'analyses de fréquences ne portent pas sur des textes lemmatisés. Ainsi, les listes de fréquences issues d'un corpus de français parlé d'un million de mots (Corpaix, version mai 2000) et celles extraites du CD-ROM du Monde Diplomatique (1987-1997) 234 sont comparables entre elles dans la mesure où ce sont des listes de fréquences de formes non lemmatisées. En revanche, elles ne comportent pas des populations comparables : un million de mots pour le corpus oral et 11 139 376 unités pour le corpus écrit. Nous disons unités pour souligner une différence supplémentaire, qui entrave la comparaison, issue du fait que les signes de ponctuation du texte écrit ont été comptabilisés de la même manière que les unités lexicales. De plus, la question de la norme lexicale est cruciale. On voit dans le tableau ci-dessous que la norme lexicale n’est pas la même pour le corpus IRC que pour les deux autres : c’est est considéré comme une unité lexicale dans nos corpus, alors qu’il en compte deux dans les deux autres corpus.

Plus le texte considéré est grand, plus le nombre de vocables 235 est grand. Comparer des listes de fréquences pourrait s'envisager de deux manières : ne prendre en compte que le rang des unités revient à gommer la proportion relative des unités dans le texte et travailler sur des proportions oblige à considérer l'ensemble des listes ou à n'en conserver qu'une proportion égale.

Tableau (7-1) – Comparaison de fréquences Corpaix / Le monde Diplomatique
  Corpaix Monde Diplomatique Corpus IRC
1 EST , de
2 DE DE je
3 C' . pas
4 EUH LA salut
5 IL L' c'est
6 ET LES le
7 QUE ET tu
8 LE LE ça
9 ON DES j'
10 LA À à
11 À 1 la
12 JE D' les
13 PAS - et
14 LES EN un
15 A DU que
16 UN UN en
17 ÇA UNE moi
18 DES EST est
19 EN DANS une
20 QUI QUE t'
21 L' ) pour
22 Y ( non
23 QU' QUI il
24 UNE PAR l'
25 MAIS IL mais
26 CE POUR ai
27 D' A vous
28 OUI AU oui
29 TU PLUS qui
30 J' : on
31 DANS SUR des
32 POUR PAS tout+le+monde
33 VOUS SE va
34 ILS S' toi
35 FAIT NE me
36 TOUT QU' suis
37 ÉTAIT CE bien
38 PLUS N' d'
39 AUX ce
40 ALORS SONT mon
41 ELLE MAIS si
42 DONC AVEC es
43 PARCE ONT avec
44 DU OU a
45 NON ON sur

Ce qui apparaît dans les listes de fréquences, c'est que les items les plus fréquents sont des items grammaticaux 236 . L'unité 'de' est fréquente à rang égal dans les deux corpus. Mais on se heurte très vite au défaut de lemmatisation 237 . 'est' peut aussi bien représenter le point cardinal que le verbe et s'il est permis de supposer que les corpus présentent pour cette unité une égale répartition des différents lemmes attachés à 'est', rien ne permet de comparer 'que' entre les deux listes sans informations sur les fonctions qu'il prend dans les textes. Et l’observation peut se faire dans l’autre sens, puisqu’une même unité, présentant des variantes contextuelles, ou des flexions différentes, se trouve scindée en deux unités dans les listes de fréquences.

Les listes de fréquences qui ne sont pas lemmatisées ne permettent guère que l'observation d'unités qui ne seraient ni polyvalentes ni invariables. L'examen des listes ci-dessus rappelle que la situation de monovalence est rare dans les langues et qu'on ne peut la reconnaître à la limite que pour quelques unités : 9 pour les deux corpus confondus, dont 3 pour le corpus le monde diplomatique et 6 pour le corpus Corpaix.

Les listes de fréquences de formes lemmatisées sont plus rares, par le simple fait qu'elles requièrent un investissement temporel plus important. Pour le français, une des listes de fréquences les plus utilisées pour les observations de l'oral est celle de Gougenheim (1964) 238 qui porte sur des formes lemmatisées et sous-catégorisées pour la classe lexicale et a servi à l'établissement du vocabulaire du français fondamental. Il existe de nombreuses autres listes de fréquences 239 de référence, réalisées principalement sur des corpus littéraires. Si nous appliquons les mêmes critères de lemmatisation que Gougenheim (1964), nous obtenons pour nos corpus la liste de fréquences suivante.

Tableau (7-2) – Fréquences selon les principes de lemmatisation de Gougenheim (1964)
numéro d'ordre lemmes fréquence
1 être 2001
2 je 1663
3 de 1260
4 pas (neg) 1006
5 salut 957
6 ce 952
7 tu 912
8 avoir 822
9 ça 646
10 le (art) 614
11 il(s) 605
12 à 546
13 la 527
14 et 500
15 les 500
16 un (det) 483
17 que (conj) 423
18 moi 399
19 une (det) 353
20 me 334
21 non 331
22 pour 327
23 mais 308
24 vous 295
25 oui 287
26 on 276
27 tout le monde 270
28 ne 252
29 dire 247
30 des 240
31 en (prep) 231
32 toi 215
33 se 188
34 qui 185
35 bien (adv) 184
36 mon 184
37 sur (prep) 171
38 alors 166
39 bon (interj) 163
40 avec 161

Cette liste a été obtenue à partir de nos principes de lemmatisation en regroupant certaines unités, de sorte qu'elle soit comparable à celle que donne Gougenheim (1964).

Tableau (7-3) – Fréquences du français fondamental
numéro d'ordre lemme répartition Fréquence
1 être 163 14083
2 avoir 163 11552
3 de 163 10503
4 je 162 7905
5 il(s) 160 7515
6 ce (pro) 163 6846
7 la (art) 163 5374
8 pas (neg) 158 5308
9 à (prép) 163 5236
10 et 161 5082
11 le (art) 163 4957
12 on 128 4266
13 vous 154 4202
14 un (art) 162 4188
15 ça (pro dem) 159 3972
16 les (art) 162 3815
17 que (conj) 162 3537
18 ne 150 3283
19 faire 162 3174
20 qui (relatif) 160 3096
21 oui 154 2935
22 alors 155 2854
23 une (art) 163 2780
24 mais 159 2768
25 des (art indef) 161 2646
26 elle (s) 134 2462
27 en (prep) 161 2405
28 dire 160 2391
29 y 143 2391
30 pour 161 2076
31 dans 162 2066
32 me 152 2014
33 se 161 1993
34 aller 161 1876
35 bien (adv) 163 1697
36 du 154 1658
37 tu 105 1536
38 en (pronom adverbe) 153 1501
39 au 161 1490
40 153 1468

Trente et un items sont communs aux deux listes. Il s'agit exclusivement de mots grammaticaux à l'exception des vocables être et avoir pour lesquels il n'y a pas eu de distinction entre les occurrences des auxiliaires et les occurrences des verbes pleins, conformément aux décisions prises dans le travail de Gougenheim (1964). Les unités communes sont, par ordre alphabétique, les suivantes :

à (prép), alors, avoir, bien (adv), ça, ce (pro), de, des (art indef), dire, en (prep), et, être, il(s), je, la (art), le (art), les (art), mais, me, ne, on, oui, pas (neg), pour, que (conj), qui (relatif), se, tu, un (art), une (art)., vous.

Les items présents dans notre liste et absents de la liste pour le français fondamental sont avec, bon (interj), moi, mon, non, salut, sur (prep), toi, tout le monde.Pour les unités salut et tout le monde, leur fréquence provient de la fréquence des séquences d'ouverture de nos corpus et de leur grande uniformité. Les pronoms disjoints et déterminants possessifs, appartenant à la catégorie des déictiques, ainsi que bon ne sont pas surprenants dans ce type d'usage linguistique.

L'écart entre les ordres des items communs aux deux listes est parfois important. La moitié des items ne présente pas de gros écart, c'est le cas de être, de, ce, un, une, se, pas, oui, les, le, je, et, en (prep), dire, bien. Cependant l'appréciation de l'écart entre les ordres ne va pas sans prendre en compte les courbes de fréquences. On remarque en effet qu'il survient des chutes importantes de la fréquence entre les plus hauts rangs. Dans nos corpus, les 10 unités les plus fréquentes représentent 22,18 % de l'effectif total et les 20 unités les plus fréquentes représentent près du tiers de l'effectif total soit 31,74 %. Dans le corpus du français fondamental on obtient pour les mêmes observations respectivement 25,44 % et 37,77 %.

Il convient dans ce cas de préférer la comparaison des fréquences relatives. Nous nous reportons à une technique courante en statistique lexicale et dénommée normalisation par Biber et al. (1998:263) :

"La normalisation est une façon d'ajuster les fréquences de textes de différentes longueurs de sorte qu'elles puissent être comparées de façon précise. Le nombre total de mots dans chaque texte doit être pris en considération lorsqu'on norme les fréquences. Particulièrement, la fréquence brute doit être divisée part le nombre de mots dans le texte, puis multiplié par la base choisie pour la normalisation.". 240

On note une fréquence relative plus importante pour les unités être, avoir, de, il, et je dans le corpus du français fondamental et une proportion plus importante pour les unités dans elle(s) ne, et pour dans notre corpus.

Notes
234.

Véronis, J. Université de Provence Aix-Marseille Page personnelle http://www.up.univ-mrs.fr/~veronis

235.

Nous employons la terminologie de Muller (1992) : "élément du vocabulaire d'un texte" qui dépend de la norme lexicologique adoptée.

236.

Et ceci est également valable pour nos corpus, ce qui écarte l’hypothèse d’un style télégraphique (ce dernier étant reconnu pour faire l’économie des mots grammaticaux).

237.

Cf. chapitre 4.

238.

L'initiative de l'établissement d'un dictionnaire et d'une grammaire du français fondamental revient à l'UNESCO (organisation des Nations Unies pour la science, la culture et l'éducation) qui créa en 1947, un comité linguistique dans le but de susciter " la diffusion des langues de communication comme l'un des moyens les plus efficaces de répandre largement l'éducation de base ". Le Centre de recherche et d'étude pour la diffusion du français (CREDIF) dont Georges Gougenheim, professeur à la Sorbonne fut le directeur, naquit à cette occasion en 1959. Malgré les nombreuses critiques qui ont pu être adressées à ces travaux, des outils de traitement automatique du français utilisent leurs résultats. C'est le cas, par exemple, de Cordial (http://www.synapse-fr.com/).

239.

INALF (1971) ; Juilland, Brodin, Davidovitch (1970) ; Engwall (1984)

240.

"Normalization is a way to adjust raw frequency counts from texts of different lengths so that they can be compared accurately. The total number of words in each text must be taken into consideration when norming frequency counts. Specifically, the raw frequency count should be divided by the number of words in the text and then multiplied by whatever basis is chosen for norming".