7.2. Listes de fréquences

Après la lemmatisation d'un texte, chaque vocable comporte une fréquence c'est-à-dire le nombre de ses occurrences. Nombre d'analyses de fréquences ne portent pas sur des textes lemmatisés. Ainsi, les listes de fréquences issues d'un corpus de français parlé d'un million de mots (Corpaix, version mai 2000) et celles extraites du CD-ROM du Monde Diplomatique (1987-1997) ²³⁴ sont comparables entre elles dans la mesure où ce sont des listes de fréquences de formes non lemmatisées. En revanche, elles ne comportent pas des populations comparables : un million de mots pour le corpus oral et 11 139 376 unités pour le corpus écrit. Nous disons unités pour souligner une différence supplémentaire, qui entrave la comparaison, issue du fait que les signes de ponctuation du texte écrit ont été comptabilisés de la même manière que les unités lexicales. De plus, la question de la norme lexicale est cruciale. On voit dans le tableau ci-dessous que la norme lexicale n’est pas la même pour le corpus IRC que pour les deux autres : c’est est considéré comme une unité lexicale dans nos corpus, alors qu’il en compte deux dans les deux autres corpus.

Plus le texte considéré est grand, plus le nombre de vocables ²³⁵ est grand. Comparer des listes de fréquences pourrait s'envisager de deux manières : ne prendre en compte que le rang des unités revient à gommer la proportion relative des unités dans le texte et travailler sur des proportions oblige à considérer l'ensemble des listes ou à n'en conserver qu'une proportion égale.

Tableau (7-1) – Comparaison de fréquences Corpaix / Le monde Diplomatique
	Corpaix	Monde Diplomatique	Corpus IRC
1	EST	,	de
2	DE	DE	je
3	C'	.	pas
4	EUH	LA	salut
5	IL	L'	c'est
6	ET	LES	le
7	QUE	ET	tu
8	LE	LE	ça
9	ON	DES	j'
10	LA	À	à
11	À	1	la
12	JE	D'	les
13	PAS	-	et
14	LES	EN	un
15	A	DU	que
16	UN	UN	en
17	ÇA	UNE	moi
18	DES	EST	est
19	EN	DANS	une
20	QUI	QUE	t'
21	L'	)	pour
22	Y	(	non
23	QU'	QUI	il
24	UNE	PAR	l'
25	MAIS	IL	mais
26	CE	POUR	ai
27	D'	A	vous
28	OUI	AU	oui
29	TU	PLUS	qui
30	J'	:	on
31	DANS	SUR	des
32	POUR	PAS	tout+le+monde
33	VOUS	SE	va
34	ILS	S'	toi
35	FAIT	NE	me
36	TOUT	QU'	suis
37	ÉTAIT	CE	bien
38	PLUS	N'	d'
39	LÀ	AUX	ce
40	ALORS	SONT	mon
41	ELLE	MAIS	si
42	DONC	AVEC	es
43	PARCE	ONT	avec
44	DU	OU	a
45	NON	ON	sur

Ce qui apparaît dans les listes de fréquences, c'est que les items les plus fréquents sont des items grammaticaux ²³⁶ . L'unité 'de' est fréquente à rang égal dans les deux corpus. Mais on se heurte très vite au défaut de lemmatisation ²³⁷ . 'est' peut aussi bien représenter le point cardinal que le verbe et s'il est permis de supposer que les corpus présentent pour cette unité une égale répartition des différents lemmes attachés à 'est', rien ne permet de comparer 'que' entre les deux listes sans informations sur les fonctions qu'il prend dans les textes. Et l’observation peut se faire dans l’autre sens, puisqu’une même unité, présentant des variantes contextuelles, ou des flexions différentes, se trouve scindée en deux unités dans les listes de fréquences.

Les listes de fréquences qui ne sont pas lemmatisées ne permettent guère que l'observation d'unités qui ne seraient ni polyvalentes ni invariables. L'examen des listes ci-dessus rappelle que la situation de monovalence est rare dans les langues et qu'on ne peut la reconnaître à la limite que pour quelques unités : 9 pour les deux corpus confondus, dont 3 pour le corpus le monde diplomatique et 6 pour le corpus Corpaix.

Les listes de fréquences de formes lemmatisées sont plus rares, par le simple fait qu'elles requièrent un investissement temporel plus important. Pour le français, une des listes de fréquences les plus utilisées pour les observations de l'oral est celle de Gougenheim (1964) ²³⁸ qui porte sur des formes lemmatisées et sous-catégorisées pour la classe lexicale et a servi à l'établissement du vocabulaire du français fondamental. Il existe de nombreuses autres listes de fréquences ²³⁹ de référence, réalisées principalement sur des corpus littéraires. Si nous appliquons les mêmes critères de lemmatisation que Gougenheim (1964), nous obtenons pour nos corpus la liste de fréquences suivante.

Tableau (7-2) – Fréquences selon les principes de lemmatisation de Gougenheim (1964)
numéro d'ordre	lemmes	fréquence
1	être	2001
2	je	1663
3	de	1260
4	pas (neg)	1006
5	salut	957
6	ce	952
7	tu	912
8	avoir	822
9	ça	646
10	le (art)	614
11	il(s)	605
12	à	546
13	la	527
14	et	500
15	les	500
16	un (det)	483
17	que (conj)	423
18	moi	399
19	une (det)	353
20	me	334
21	non	331
22	pour	327
23	mais	308
24	vous	295
25	oui	287
26	on	276
27	tout le monde	270
28	ne	252
29	dire	247
30	des	240
31	en (prep)	231
32	toi	215
33	se	188
34	qui	185
35	bien (adv)	184
36	mon	184
37	sur (prep)	171
38	alors	166
39	bon (interj)	163
40	avec	161

Cette liste a été obtenue à partir de nos principes de lemmatisation en regroupant certaines unités, de sorte qu'elle soit comparable à celle que donne Gougenheim (1964).

Tableau (7-3) – Fréquences du français fondamental
numéro d'ordre	lemme	répartition	Fréquence
1	être	163	14083
2	avoir	163	11552
3	de	163	10503
4	je	162	7905
5	il(s)	160	7515
6	ce (pro)	163	6846
7	la (art)	163	5374
8	pas (neg)	158	5308
9	à (prép)	163	5236
10	et	161	5082
11	le (art)	163	4957
12	on	128	4266
13	vous	154	4202
14	un (art)	162	4188
15	ça (pro dem)	159	3972
16	les (art)	162	3815
17	que (conj)	162	3537
18	ne	150	3283
19	faire	162	3174
20	qui (relatif)	160	3096
21	oui	154	2935
22	alors	155	2854
23	une (art)	163	2780
24	mais	159	2768
25	des (art indef)	161	2646
26	elle (s)	134	2462
27	en (prep)	161	2405
28	dire	160	2391
29	y	143	2391
30	pour	161	2076
31	dans	162	2066
32	me	152	2014
33	se	161	1993
34	aller	161	1876
35	bien (adv)	163	1697
36	du	154	1658
37	tu	105	1536
38	en (pronom adverbe)	153	1501
39	au	161	1490
40	là	153	1468

Trente et un items sont communs aux deux listes. Il s'agit exclusivement de mots grammaticaux à l'exception des vocables être et avoir pour lesquels il n'y a pas eu de distinction entre les occurrences des auxiliaires et les occurrences des verbes pleins, conformément aux décisions prises dans le travail de Gougenheim (1964). Les unités communes sont, par ordre alphabétique, les suivantes :

à (prép), alors, avoir, bien (adv), ça, ce (pro), de, des (art indef), dire, en (prep), et, être, il(s), je, la (art), le (art), les (art), mais, me, ne, on, oui, pas (neg), pour, que (conj), qui (relatif), se, tu, un (art), une (art)., vous.

Les items présents dans notre liste et absents de la liste pour le français fondamental sont avec, bon (interj), moi, mon, non, salut, sur (prep), toi, tout le monde.Pour les unités salut et tout le monde, leur fréquence provient de la fréquence des séquences d'ouverture de nos corpus et de leur grande uniformité. Les pronoms disjoints et déterminants possessifs, appartenant à la catégorie des déictiques, ainsi que bon ne sont pas surprenants dans ce type d'usage linguistique.

L'écart entre les ordres des items communs aux deux listes est parfois important. La moitié des items ne présente pas de gros écart, c'est le cas de être, de, ce, un, une, se, pas, oui, les, le, je, et, en (prep), dire, bien. Cependant l'appréciation de l'écart entre les ordres ne va pas sans prendre en compte les courbes de fréquences. On remarque en effet qu'il survient des chutes importantes de la fréquence entre les plus hauts rangs. Dans nos corpus, les 10 unités les plus fréquentes représentent 22,18 % de l'effectif total et les 20 unités les plus fréquentes représentent près du tiers de l'effectif total soit 31,74 %. Dans le corpus du français fondamental on obtient pour les mêmes observations respectivement 25,44 % et 37,77 %.

Il convient dans ce cas de préférer la comparaison des fréquences relatives. Nous nous reportons à une technique courante en statistique lexicale et dénommée normalisation par Biber et al. (1998:263) :

"La normalisation est une façon d'ajuster les fréquences de textes de différentes longueurs de sorte qu'elles puissent être comparées de façon précise. Le nombre total de mots dans chaque texte doit être pris en considération lorsqu'on norme les fréquences. Particulièrement, la fréquence brute doit être divisée part le nombre de mots dans le texte, puis multiplié par la base choisie pour la normalisation.". ²⁴⁰

On note une fréquence relative plus importante pour les unités être, avoir, de, il, et je dans le corpus du français fondamental et une proportion plus importante pour les unités dans elle(s) ne, et pour dans notre corpus.

Notes

234.

Véronis, J. Université de Provence Aix-Marseille Page personnelle http://www.up.univ-mrs.fr/~veronis

235.

Nous employons la terminologie de Muller (1992) : "élément du vocabulaire d'un texte" qui dépend de la norme lexicologique adoptée.

236.

Et ceci est également valable pour nos corpus, ce qui écarte l’hypothèse d’un style télégraphique (ce dernier étant reconnu pour faire l’économie des mots grammaticaux).

237.

Cf. chapitre 4.

238.

L'initiative de l'établissement d'un dictionnaire et d'une grammaire du français fondamental revient à l'UNESCO (organisation des Nations Unies pour la science, la culture et l'éducation) qui créa en 1947, un comité linguistique dans le but de susciter " la diffusion des langues de communication comme l'un des moyens les plus efficaces de répandre largement l'éducation de base ". Le Centre de recherche et d'étude pour la diffusion du français (CREDIF) dont Georges Gougenheim, professeur à la Sorbonne fut le directeur, naquit à cette occasion en 1959. Malgré les nombreuses critiques qui ont pu être adressées à ces travaux, des outils de traitement automatique du français utilisent leurs résultats. C'est le cas, par exemple, de Cordial (http://www.synapse-fr.com/).

239.

INALF (1971) ; Juilland, Brodin, Davidovitch (1970) ; Engwall (1984)

240.

"Normalization is a way to adjust raw frequency counts from texts of different lengths so that they can be compared accurately. The total number of words in each text must be taken into consideration when norming frequency counts. Specifically, the raw frequency count should be divided by the number of words in the text and then multiplied by whatever basis is chosen for norming".