1. CODAGE

1.1. STANDARDISATION DU CORPUS

Dans un premier temps, l'ensemble des textes a été standardisé, c'est-à-dire que nous l'avons nettoyé de ses erreurs d'orthographe, de grammaire, de segmentation, etc. Il ne faut, en effet, pas perdre de vue que nous travaillons sur des textes d'enfants et que ces derniers sont parfois loin de correspondre aux graphies standards.

S'il est simple de se représenter ce qu'est une faute de grammaire ou d'orthographe, il est plus difficile d'imaginer ce à quoi peut correspondre une erreur de segmentation. À la lecture des textes, on s'aperçoit que les enfants ne segmentent pas toujours les mots comme un adulte le ferait, et les cas de segmentation non conventionnelle sont de deux sortes : soit le sujet attache abusivement deux ou plusieurs séquences graphiques qui devraient être séparées, soit le sujet dissocie, en deux ou plusieurs séquences, une suite de lettres continue conventionnellement. Dans le premier cas, on parle d'"hyposegmentation" et, dans le second, d'"hypersegmentation" (Ferreiro et al., 1996). Le tableau 27 présente quelques-uns de ces phénomènes même s'il est loin d'être exhaustif :

Tableau 27 : Quelques cas d'hypo- et d'hypersegmentations.
Hyposegmentation Hypersegmentation
Sujet Standard Sujet Standard
CLE 6F8E2 lomme l'homme
LAU 7F5E2 loriller l'oreiller
WIL 6G7E2 lindiéne l'indienne
THO 9G6E1 souvrit s'ouvrit
WIL 8G3E2 saraite s'arrête
PIE 7G3E1 sapellai s'appelait
PAU 7F1E1 daler d'aller
MAU 8F4E2 apenne à peine
WIL 8G3E2 pennensten pendant ce temps
SON 6G5E2 cilteplait s'il te plaît
JUL 10F2E2 s’ennaler s'en aller
MAR 10F9E2 porquépic porc-épic
PAU 7F1E1 s'orti sorti
CYP 7G4E1 an tandi. entendit
THO 7G8E2 poin ta pointa
MAE 10F7E2 poque et pic porc-épic

Ce tableau, qui montre que le passage de l'oral à l'écrit ne se fait pas sans encombre, conduit à différentes remarques : les cas d'hypersegmentation sont moins fréquents que ceux d'hyposegmentation. En effet, même si cette grille ne regroupe pas l'ensemble des segmentations non conventionnelles du corpus, les cas d'hypersegmentation sont extrêmement rares.

Pour ce qui de l'hyposegmentation, il semble évident que les sujets sont gênés par le fait d'isoler une lettre (Ferreiro et al., 1996), quelle qu'elle soit ("lomme", "saraite", "daler"). Il serait intéressant de demander aux enfants une définition du terme "mot". Peut-être mettraient-ils alors en avant un nombre minimal de lettres ?

Certains adverbes ("apenne", "pennensten") ou locutions figées ("cilteplait") semblent également poser problème aux enfants qui les appréhendent comme un seul mot. À ce sujet, nous avons été étonnée de ne trouver aucune erreur de découpage sur "Il était une fois" mais cela peut s'expliquer par le fait que les enfants le voient régulièrement écrit dans les livres d'histoire spécialement conçus pour leur âge.

"S'ennaler" et "porquépic" ont été volontairement extraits de textes de sujets de 10 ans pour montrer que leur graphie demeure problématique même à cet âge avancé.

En ce qui concerne les cas d'hypersegmentation, il semblerait que les enfants, d'une part, ne segmentent pas abusivement n'importe quel mot et, d'autre part, n'isolent pas n'importe quelle partie des mots qu'ils hypersegmentent. En effet, on constate que les segments isolés correspondent à des unités existant en français ("s'", "en", "ta", "et").

Ces quelques exemples de segmentations non conventionnelles montrent combien la standardisation du corpus s'avérait être une étape fondamentale de l'analyse du lexique. Si nous ne l'avions pas effectuée, le nombre de mots contenus dans les restitutions des enfants et, par conséquent, les comparaisons enfant/adulte qui vont suivre auraient été sévèrement faussées.