1.3.3. Mots et vocables lexicaux

Nous avons brièvement expliqué les notions de "mot" et de "vocable" au moment de la définition de l'unité "mot". Nous allons, à présent, motiver cette distinction et l'appliquer à l'exemple que nous considérons depuis le début de cette introduction (i.e. PIE 8G9E2 (23)).

Rappelons donc simplement que chaque mot d'un texte est une forme d'un vocable et d'un seul, on dit aussi qu'il est l'occurrence de ce vocable. Le nombre de vocables d'un texte (communément noté V par rapport au nombre de mots noté N) correspond donc au nombre de mots différents de ce texte. Richards (1987) emploie les termes de "type token ", le "type" correspondant au vocable, le "token" aux occurrences de ce vocable et donc au mot. Dans notre perspective, cette distinction est fondamentale car les sujets, et plus particulièrement les enfants, ont fréquemment recours à la répétition, et travailler en considérant les occurrences plutôt que les mots différents aurait donc tendance à fausser quelque peu les données.

L'exemple [V.I.3] rend compte de l'application de ces différentes définitions au texte de PIE 8G9E2 (23) qui contient 28 mots, 26 mots lexicaux lemmatisés et seulement 18 vocables lexicaux lemmatisés :

[V.I.3]

Items lexicaux
mots du texte mots standardisés mots standardisés et lemmatisés vocables standardisés et lemmatisés
va avoir vas avoir avoir avoir
avoir avait avoir
bruit bruits bruit bruit
canadien canadien canadien canadien
dit dit dire dire
dit dit dire
enclos enclos enclos enclos
enuit ennuis ennui ennui
entendit entendit entendre entendre
fer faire faire faire
indienne indienne indienne indienne
lapin lapin lapin lapin
oreiller oreiller oreiller oreiller
per part partir partir
petit petit petit petit
petit petit petit
petit petit petit
petit petit petit
petite petite petit
peut peux pouvoir pouvoir
renard renard renard renard
sorti sortit sortir sortir
trapeur trappeur trappeur trappeur
trapeur trappeur trappeur
trapeur trappeur trappeur
avai vue avait vu voir voir
28 28 26 18

Autrement dit, et pour récapituler, les différentes analyses lexicales qui vont suivre observeront selon les cas, un nombre de mots lexicaux standardisés et lemmatisés ou un nombre de vocables lexicaux standardisés et lemmatisés, l'aperçu théorique présenté ici permettant, à présent, de comprendre les différents termes utilisés : l'ensemble de cette introduction permet, en effet, de comprendre comment on est passé de (1) à (2) :

[V.I.4] PIE 8G9E2 (23)

Version originale (1) Version finale (2)
1. Le petit trapeur canadien sorti de son enclos
2. il avai vue un petit lapin
3. et le petit trapeur lui dit
4. per
5. sinon tu va avoir des enuit
6. et le petit trapeur entendit des bruit
7. et il avait la petite indienne
8. lui dit
9. tu peut me fer un oreiller en renard
1. petit trappeur canadien sortir enclos
2. voir petit lapin
3. petit trappeur dire
4. partir
5. avoir ennui
6. petit trappeur entendre bruit
7. avoir petit indienne

8. dire
9. pouvoir faire oreiller renard

Ainsi préparé, le corpus se compose donc de noms, de verbes, d'adjectifs et d'adverbes. Précisons que nous avons conservé seulement les adverbes les plus lexicaux, c'est-à-dire les adverbes en –ment. Certes, cette sélection arbitraire peut sembler draconienne mais elle présente l'avantage de considérablement faciliter le traitement.

Les données ainsi catégorisées sont donc, dans les cinq chapitres futurs, toujours abordées selon deux points de vue : le premier mène à une analyse toutes catégories lexicales confondues pour donner une idée globale puis le second conduit à une étude plus fine catégorie par catégorie (i.e. noms, verbes, adjectifs et adverbes en –ment).

Si l'examen des noms et des verbes aboutit régulièrement à des conclusions intéressantes, nous restons prudente quant aux résultats obtenus au sujet des adjectifs et des adverbes, et ce, pour deux raisons : la première est que Gougenheim et al. (1964) montrent que les verbes sont les éléments lexicaux qui ont la plus haute fréquence et qui sont les plus stables, c'est-à-dire que ce sont eux qui apparaissent dans le plus grand nombre de circonstances différentes. À l'exception d'un seul adjectif (i.e. "petit"), les travaux de Gougenheim et al. (1964) montrent que la classe suivante correspond à celle des noms, les adjectifs se plaçant juste après. Les adverbes, en –ment ou autres, n'étant pas considérés par l'étude, nous ne pouvons établir aucun parallèle entre leurs travaux et les nôtres.

La hiérarchisation de Gougenheim et al. (1964) est en corrélation avec l'ordre d'acquisition des différentes catégories : si les noms et les verbes sont précocement utilisés, ce n'est pas le cas des adjectifs et des adverbes en –ment. En même temps, il est certain que si les noms et les verbes sont absolument nécessaires à la construction du discours, les adjectifs et les adverbes en –ment ont un caractère plus secondaire : ils sont optionnels, facultatifs (Tannen, 1982) pour les adjectifs et Guimier, 1991 ; Pollock, 1991 ; pour les adverbes en –ment).

Au sujet des adjectifs, les travaux posent qu'il faut attendre l'âge de 12 ans pour que les productions écrites des sujets en comportent au moins un dans le contexte de l'étude (Gayraud, 2000). Pour les adverbes, la littérature (Guimier, 1991 ) souligne leur position ambiguë et, du fait qu'il y ait peu de possibilités de généralisation translinguistique, cette catégorie se laisse difficilement appréhender. Cependant, quelques auteurs (Kail, 1979 ; Givón, 1990) la définissent comme d'acquisition difficile.

La deuxième raison au fait que ces deux classes de mots recommandent de la prudence dans l'interprétation est que les textes originaux eux-mêmes en contiennent peu : seulement 10 % des mots du PCR et 13 % de ceux de DAN sont des adjectifs et pour les deux textes, on trouve 1 % d'adverbes en –ment. Aussi ces deux catégories sont-elles indiscutablement trop peu suggérées par le support pour que leur utilisation soit favorisée.

Cette partie se compose de cinq chapitres : le premier traite de la densité lexicale (cf. chapitre 8) et le second de la diversité lexicale (cf. chapitre 9) des récits soumis à restitution, d'une part, et des rappels effectués par les sujets, d'autre part. Les trois chapitres suivants sont rendues possibles du fait que l'on travaille sur des tâches de restitution de textes.

En effet, pour les trois derniers chapitres, nous sommes partie de ce que Muller (1992) appelle la "connexion lexicale". La connexion lexicale permet de mesurer le taux de vocables communs à deux textes. L'auteur explique que lorsqu'on juxtapose le vocabulaire de deux textes, on prévoit que certains vocables apparaîtront dans les deux alors que d'autres apparaîtront dans l'un ou l'autre seulement. Muller (1992) imagine deux textes Ta et Tb et montre qu'il y a donc trois possibilités :

Il précise également que plus Ta et Tb auront de mots en commun, plus la connexion lexicale sera forte.

Chacune de ces possibilités a fait l'objet d'un chapitre : le chapitre 10 aborde donc les vocables communs aux textes initiaux et aux restitutions (i.e. les vocables lexicaux restitués), le chapitre 11 traite des vocables lexicaux présents dans les textes initiaux et jamais restitués (i.e. les vocables lexicaux jamais restitués) et le chapitre 12 donne lieu à l'inventaire des items lexicaux présents dans les restitutions et non suggérés par les supports (i.e. les vocables lexicaux ajoutés). Rappelons, car nous avons vu que cela influençait le rappel, que les consignes de production ne contenaient pas le mot "exactement" (Gauld et Stephenson, 1967). Aussi pourrons-nous dire que les termes restitués le sont parce qu'ils ont une certaine saillance.

Précisons que les données, pour donner lieu aux résultats qui vont suivre, ont été traitées par un logiciel de synthèse de texte qui offre la possibilité de dresser une liste de fréquence des items composant les différentes productions (Conc 1.8).