1.3. L'UNITÉ "MOT"

1.3.1. Définition

Cette étude a donc pour objet le mot. Cependant, le terme de "mot" n'a, jusque là, donné lieu à aucune définition satisfaisante et les personnes s'intéressant aux problèmes de statistique lexicale considèrent cette entité comme scientifiquement suspecte (Muller, 1992). La solution de facilité serait de compter mot, tout segment équivalant à une suite de lettres entourée par des blancs graphiques32 (Arrivé et al., 1986). Cependant, cette définition est difficilement applicable à toutes les entités graphiques susceptibles de constituer un texte : qu'en est-il, par exemple, du partitif "du" qui correspond à la contraction de "de le" ?

Pour régler ces problèmes, Muller (1992) pose qu'il est impératif de faire appel à une norme lexicologique, c'est-à-dire qu'il faut suivre un ensemble de règles qui décident de la délimitation des mots et des vocables, c'est-à-dire des mots différents.

Muller (1992) définit, en effet, deux acceptions du terme "mot" : d'une part, il voit les unités constitutives de tout texte et, d'autre part, il pense aux unités qui se succèdent dans la nomenclature d'un dictionnaire. Dans le premier cas, on pose le mot comme une unité de texte qui s'agence, avec d'autres unités de son genre, sur l'axe syntagmatique constitué par le texte (i.e. dévorera). Dans le second cas, on l'appréhende comme une unité de lexique faisant partie d'un ensemble paradigmatique correspondant au lexique d'une langue donnée (i.e. dévorer). Muller choisit d'appeler "mot" seulement les unités de texte et qualifie de "vocable" les unités de lexique. Autrement dit, "vocable" signifie bien "mot différent" mais nous aurons l'occasion de revenir sur cette distinction qui est très brièvement introduite ici pour permettre la compréhension des différentes conventions constituant la norme lexicologique.

Cette norme est donc nécessaire chaque fois que l'on a des raisons de penser que la forme graphique diffère de l'unité de texte ou de l'unité de lexique. Lorsque la forme graphique ne coïncide pas avec l'unité de texte, deux cas sont possibles : soit plusieurs segments sont considérés comme une seule unité, soit une seule unité correspond en réalité à plusieurs segments.

Pour le premier cas (i.e. plusieurs segments = une seule unité), Muller (1992) parle de "composés" et il note, ici aussi, différentes possibilités :

  1. les différents segments peuvent soit être apposés sans qu'aucune marque graphique ne les sépare ("Petit Chaperon Rouge", "Il était une fois", "se réveiller", etc.)

  2. les différents segments peuvent être séparés par un trait d'union ("grand-mère", "porc-épic", etc.)

  3. les différents segments peuvent être soudés graphiquement ("maltraiter", "madame", etc.)

Pour le second cas (i.e. une seule unité = plusieurs segments), Muller (1992) parle de "formes contractes". Elles résultent d'une soudure phonétique entre deux éléments consécutifs. Le français n'en connaît que quatre qui correspondent à la réunion d'une préposition et de l'article défini ("au" correspond à la contraction de "à le", "aux" correspond à la contraction de "à les", "du" correspond à la contraction de "de le" et "des" correspond à la contraction de "de les")

Lorsque la forme graphique diffère de l'unité de lexique, deux cas sont possibles également : soit des formes identiques doivent être rattachées à des lemmes distincts (i.e. "le" (le loup) et "le" (il le donne)), soit des formes différentes doivent être rattachées à un seul lemme (i.e. "suis", "fut", "est", "sera" pour "être").

Sur la base de ces conventions, nous avons donc compté les mots des restitutions et l'exemple [V.I.2] en contient donc 50 :

[V.I.2] PIE 8G9E2 (23)
1. Le petit trappeur canadien sortit de son enclos
2. il avait vu un petit lapin
3. et le petit trappeur lui dit
4. Part
5. sinon tu vas avoir des ennuis
6. et le petit trappeur entendit des bruits
7. et il avait la petite indienne
8. lui dit
9. tu peux me faire un oreiller en renard

Cet exemple permet de montrer que, premièrement, nous avons compté comme un seul mot les formes contractes (i.e. des) et que, deuxièmement, nous n'avons pas rajouté les mots oubliés par les sujets. En effet, ici, il est certain que le "y" de la clause 7 (entre "il" et "avait") et le "qui" de la clause 8 (en début de proposition) manquent, mais nous avons préféré ne pas corriger ces erreurs car ce travail nous semblait très subjectif, subjectivité dont cet exemple nous permet de rendre compte d'ailleurs : nous venons de poser que le segment oublié en 8 est la conjonction de subordination "qui" ; or pourquoi ne serait-ce pas le pronom anaphorique de troisième personne "elle" ? Parce que l'enfant aurait mis un point à la fin de la clause précédente (i.e. clause 7) ? Cependant, si on observe le reste de l'extrait, ce sujet n'utilise pas de marques de ponctuation... Autrement dit, ce seul exemple illustre parfaitement les difficultés rencontrées par l'ajout d'items supposés oubliés.

Maintenant que le point est fait sur l'unité "mot", nous pouvons préciser que l'ensemble des termes décomptés peut se répartir en deux grandes classes distinctes : les mots lexicaux et les mots grammaticaux (Givón, 1984 ; Rémi-Giraud et al., 1988 ; Halliday, 1989)

Notes
32.

Rappelons que nous travaillons sur la langue écrite et que les problèmes liés à la délimitation du mot vont être envisagés dans cette optique là seulement.