1.3.3. Mots et vocables lexicaux

Nous avons brièvement expliqué les notions de "mot" et de "vocable" au moment de la définition de l'unité "mot". Nous allons, à présent, motiver cette distinction et l'appliquer à l'exemple que nous considérons depuis le début de cette introduction (i.e. PIE 8G9E2 (23)).

Rappelons donc simplement que chaque mot d'un texte est une forme d'un vocable et d'un seul, on dit aussi qu'il est l'occurrence de ce vocable. Le nombre de vocables d'un texte (communément noté V par rapport au nombre de mots noté N) correspond donc au nombre de mots différents de ce texte. Richards (1987) emploie les termes de "type token ", le "type" correspondant au vocable, le "token" aux occurrences de ce vocable et donc au mot. Dans notre perspective, cette distinction est fondamentale car les sujets, et plus particulièrement les enfants, ont fréquemment recours à la répétition, et travailler en considérant les occurrences plutôt que les mots différents aurait donc tendance à fausser quelque peu les données.

L'exemple [V.I.3] rend compte de l'application de ces différentes définitions au texte de PIE 8G9E2 (23) qui contient 28 mots, 26 mots lexicaux lemmatisés et seulement 18 vocables lexicaux lemmatisés :

[V.I.3]

Items lexicaux
mots du texte	mots standardisés	mots standardisés et lemmatisés	vocables standardisés et lemmatisés
va avoir	vas avoir	avoir	avoir
avoir	avait	avoir
bruit	bruits	bruit	bruit
canadien	canadien	canadien	canadien
dit	dit	dire	dire
dit	dit	dire
enclos	enclos	enclos	enclos
enuit	ennuis	ennui	ennui
entendit	entendit	entendre	entendre
fer	faire	faire	faire
indienne	indienne	indienne	indienne
lapin	lapin	lapin	lapin
oreiller	oreiller	oreiller	oreiller
per	part	partir	partir
petit	petit	petit	petit
petit	petit	petit
petit	petit	petit
petit	petit	petit
petite	petite	petit
peut	peux	pouvoir	pouvoir
renard	renard	renard	renard
sorti	sortit	sortir	sortir
trapeur	trappeur	trappeur	trappeur
trapeur	trappeur	trappeur
trapeur	trappeur	trappeur
avai vue	avait vu	voir	voir
28	28	26	18

Autrement dit, et pour récapituler, les différentes analyses lexicales qui vont suivre observeront selon les cas, un nombre de mots lexicaux standardisés et lemmatisés ou un nombre de vocables lexicaux standardisés et lemmatisés, l'aperçu théorique présenté ici permettant, à présent, de comprendre les différents termes utilisés : l'ensemble de cette introduction permet, en effet, de comprendre comment on est passé de (1) à (2) :

[V.I.4] PIE 8G9E2 (23)

Version originale (1)	Version finale (2)
1. Le petit trapeur canadien sorti de son enclos 2. il avai vue un petit lapin 3. et le petit trapeur lui dit 4. per 5. sinon tu va avoir des enuit 6. et le petit trapeur entendit des bruit 7. et il avait la petite indienne 8. lui dit 9. tu peut me fer un oreiller en renard	1. petit trappeur canadien sortir enclos 2. voir petit lapin 3. petit trappeur dire 4. partir 5. avoir ennui 6. petit trappeur entendre bruit 7. avoir petit indienne 8. dire 9. pouvoir faire oreiller renard

Ainsi préparé, le corpus se compose donc de noms, de verbes, d'adjectifs et d'adverbes. Précisons que nous avons conservé seulement les adverbes les plus lexicaux, c'est-à-dire les adverbes en –ment. Certes, cette sélection arbitraire peut sembler draconienne mais elle présente l'avantage de considérablement faciliter le traitement.

Les données ainsi catégorisées sont donc, dans les cinq chapitres futurs, toujours abordées selon deux points de vue : le premier mène à une analyse toutes catégories lexicales confondues pour donner une idée globale puis le second conduit à une étude plus fine catégorie par catégorie (i.e. noms, verbes, adjectifs et adverbes en –ment).

Si l'examen des noms et des verbes aboutit régulièrement à des conclusions intéressantes, nous restons prudente quant aux résultats obtenus au sujet des adjectifs et des adverbes, et ce, pour deux raisons : la première est que Gougenheim et al. (1964) montrent que les verbes sont les éléments lexicaux qui ont la plus haute fréquence et qui sont les plus stables, c'est-à-dire que ce sont eux qui apparaissent dans le plus grand nombre de circonstances différentes. À l'exception d'un seul adjectif (i.e. "petit"), les travaux de Gougenheim et al. (1964) montrent que la classe suivante correspond à celle des noms, les adjectifs se plaçant juste après. Les adverbes, en –ment ou autres, n'étant pas considérés par l'étude, nous ne pouvons établir aucun parallèle entre leurs travaux et les nôtres.

La hiérarchisation de Gougenheim et al. (1964) est en corrélation avec l'ordre d'acquisition des différentes catégories : si les noms et les verbes sont précocement utilisés, ce n'est pas le cas des adjectifs et des adverbes en –ment. En même temps, il est certain que si les noms et les verbes sont absolument nécessaires à la construction du discours, les adjectifs et les adverbes en –ment ont un caractère plus secondaire : ils sont optionnels, facultatifs (Tannen, 1982) pour les adjectifs et Guimier, 1991 ; Pollock, 1991 ; pour les adverbes en –ment).

Au sujet des adjectifs, les travaux posent qu'il faut attendre l'âge de 12 ans pour que les productions écrites des sujets en comportent au moins un dans le contexte de l'étude (Gayraud, 2000). Pour les adverbes, la littérature (Guimier, 1991 ) souligne leur position ambiguë et, du fait qu'il y ait peu de possibilités de généralisation translinguistique, cette catégorie se laisse difficilement appréhender. Cependant, quelques auteurs (Kail, 1979 ; Givón, 1990) la définissent comme d'acquisition difficile.

La deuxième raison au fait que ces deux classes de mots recommandent de la prudence dans l'interprétation est que les textes originaux eux-mêmes en contiennent peu : seulement 10 % des mots du PCR et 13 % de ceux de DAN sont des adjectifs et pour les deux textes, on trouve 1 % d'adverbes en –ment. Aussi ces deux catégories sont-elles indiscutablement trop peu suggérées par le support pour que leur utilisation soit favorisée.

Cette partie se compose de cinq chapitres : le premier traite de la densité lexicale (cf. chapitre 8) et le second de la diversité lexicale (cf. chapitre 9) des récits soumis à restitution, d'une part, et des rappels effectués par les sujets, d'autre part. Les trois chapitres suivants sont rendues possibles du fait que l'on travaille sur des tâches de restitution de textes.

En effet, pour les trois derniers chapitres, nous sommes partie de ce que Muller (1992) appelle la "connexion lexicale". La connexion lexicale permet de mesurer le taux de vocables communs à deux textes. L'auteur explique que lorsqu'on juxtapose le vocabulaire de deux textes, on prévoit que certains vocables apparaîtront dans les deux alors que d'autres apparaîtront dans l'un ou l'autre seulement. Muller (1992) imagine deux textes Ta et Tb et montre qu'il y a donc trois possibilités :

effectif des vocables présents dans Ta et Tb ;
effectif des vocables de Ta manquant dans Tb ;
effectif des vocables de Tb manquant dans Ta.

Il précise également que plus Ta et Tb auront de mots en commun, plus la connexion lexicale sera forte.

Chacune de ces possibilités a fait l'objet d'un chapitre : le chapitre 10 aborde donc les vocables communs aux textes initiaux et aux restitutions (i.e. les vocables lexicaux restitués), le chapitre 11 traite des vocables lexicaux présents dans les textes initiaux et jamais restitués (i.e. les vocables lexicaux jamais restitués) et le chapitre 12 donne lieu à l'inventaire des items lexicaux présents dans les restitutions et non suggérés par les supports (i.e. les vocables lexicaux ajoutés). Rappelons, car nous avons vu que cela influençait le rappel, que les consignes de production ne contenaient pas le mot "exactement" (Gauld et Stephenson, 1967). Aussi pourrons-nous dire que les termes restitués le sont parce qu'ils ont une certaine saillance.

Précisons que les données, pour donner lieu aux résultats qui vont suivre, ont été traitées par un logiciel de synthèse de texte qui offre la possibilité de dresser une liste de fréquence des items composant les différentes productions (Conc 1.8).