3.3. Inventaire consonantique du français et fréquences

Le français comporte 18 consonnes sans compter les semi-consonnes qui ne seront pas étudiées dans ce corpus et si on compte la nasale vélaire [ŋ] qui provient d’emprunts de l’anglais. Ces 18 consonnes sont classées selon leur mode et lieu d’articulation dans le tableau (61). Pour la colonne [coronal], le trait [+ant] fait référence aux consonnes dentales et alvéolaires, et le trait [-ant] fait référence aux consonnes post-alvéolaires et palatales. D’un point de vue phonétique, les occlusives /t/, /d/ et /n/ du français sont des dentales. Dans la suite de ce travail, je me référerai à ces consonnes comme étant des alvéolaires au sens large.

(61) Inventaire phonémique des consonnes (adapté de Casagrande 1984)

La fricative uvulaire /ʁ/ a été classée comme une liquide et non comme une fricative, suivant en cela la classification de Casagrande (1984). Ce classement a malgré tout un fondement. Bien que les rhotiques, dont fait partie [ʁ], ne possèdent pas une propriété phonétique commune unique (Walsh Diskey 1997), cette famille de consonnes possède des comportements communs. Wiese (2001) les résume ainsi :

Être un /r/, quel que soit le système, est ce qui est important, tandis que le type de /r/ présent dans un système phonétique est souvent systématiquement non pertinent (et sujet à de nombreuses variation ou des changements rapides).
Les changements de la qualité du /r/ en synchronie et en diachronie sont fréquents et répandus et n’affectent pas le système phonologique.
/r/ possède un patron phonotactique spécifique, différents des fricatives pour le cas du français, puisqu’il peut apparaître en position de dépendance dans une attaque ce qui n’est pas le cas des fricatives.

Comme déjà indiqué en section , l’acquisition d’un système phonologique, ici celui du français, peut être influencée par la fréquence de ces phonèmes. Ainsi de manière générale, il a été montré que la fréquence des mots est un facteur très important dans leur reconnaissance. Les mots utilisés couramment sont plus facilement et plus rapidement reconnus que les mots utilisés plus rarement. De nombreuses études montrent que la fréquence est le facteur expliquant le plus de variance dans une tâche de décision lexicale, c’est donc un facteur extrêmement important à contrôler dès lors que l’on veut mettre en évidence l’importance d’un autre facteur dans la reconnaissance de mots.

Gernsbacher (1984) a suggéré que les fréquences basées sur des corpus écrits (comme les fréquences de Brulex ou de Lexique 1 et 2) n’étaient pas de très bons estimateurs de la fréquence d’usage. Elle a notamment argumenté que ces fréquences écrites « classiques » ne prennent pas en compte la fréquence d’occurrence parlée. De plus ces fréquences reposent souvent sur des corpus anciens et non actualisés. Elle a ainsi montré que la familiarité pouvait être un meilleur prédicteur des temps de décision lexicale (notamment pour les mots de basse fréquence) que les fréquences utilisées à l’époque. Il ressort donc des études portant sur les effets de la fréquence qu’il est crucial d’avoir les fréquences les plus actualisées et les plus proches de l’usage parlé possible.

Pour le calcul des fréquences d’usage des phonèmes, j’ai donc utilisé Lexique 3 (New 2006), bien que d’autres sources existent comme par exemple Malécot (1974). Trois raisons m’ont fait opter pour Lexique 3. Premièrement, c’est la plus récente et donc la plus actualisée. Deuxièmement, c’est celle qui comprend le plus large corpus. Enfin, troisièmement, cette base fournit les frontières syllabiques des mots transcrits phonétiquement. Ainsi, Lexique 3 est une base de données qui fournit, entre autres, pour 135 000 mots du français, leur représentation orthographique et phonémique, leur syllabation, catégorie grammaticale, genre, nombre et, finalement, leur fréquence d’utilisation en français contemporain. Les fréquences indiquées dans cette base sont divisées en deux sous-ensembles en fonction de la provenance des mots. Ainsi, pour un mot donné, Lexique 3 fournit sa fréquence dans un ensemble de textes littéraires récents (romans) tirés du corpus Frantext ainsi que dans un corpus de sous-titres de films. Un des avantages indéniables des fréquences données par le corpus de sous-titres de films pour l’analyse des données de Marilyn est le fait que ces fréquences rendent compte des fréquences de termes caractéristiques du langage parlé tels que ça, là, bonjour, oui, ou n on qui sont bien plus fréquents dans le corpus de sous-titres que dans le corpus de livres. Ce corpus contient les sous-titres de 2960 films ou saisons de séries représentant 16,6 millions de mots (occurrences).

Grâce à Lexique 3 et surtout à l’un de ses champs qui fournit la transcription phonétique des mots avec l’indication des frontières syllabiques, j’ai pu calculer en fonction de leur position dans la syllabe, la fréquence de chaque phonème. En ce qui concerne la présente étude, je fournis en (62) les fréquences des phonèmes uniquement pour la dernière syllabe du mot. En effet, comme on le verra dans le prochain chapitre, au vu des données produites par Marilyn, seule la dernière syllabe du mot peut faire l’objet d’un traitement statistique car c’est la seule qui est généralement produite par l’enfant, les autres syllabes étant le plus souvent tronquées (voir section du chapitre 3). Je n’ai indiqué les fréquences de consonnes que pour deux positions spécifiques dans le tableau (62), la position de tête d’attaque et la position qui suit la voyelle. Ces deux positions représentent 93% des occurrences de consonnes qui sont produites dans la syllabe en finale de mot dans la base Lexique 3. À cela, on peut ajouter 3,5% dû aux liquides en position dépendante de l’attaque branchante, le reste étant des consonnes apparaissant dans d’autres positions, comme par exemple le [s] en position d’appendice comme dans le mot spire [spiʁ] (voir section ). Le calcul des fréquences pour la catégorie « toutes positions confondues » prend en compte la position de tête d’attaque et celle qui suit la voyelle mais également toutes les autres positions. Pour ce calcul, certaines modifications ont du être faites à la transcription fournie dans Lexique 3 et plus particulièrement deux qui ont une incidence importante sur le calcul des fréquences. La première concerne la conjugaison du verbe être à la troisième personne du présent de l’indicatif est qui, dans Lexique 3, est erronément transcrit [est] au lieu de [ɛ]. Étant donné que cette conjugaison est très fréquente, la transcription de Lexique 3 avait un impact sur la fréquence de [s] qui suit la voyelle. La deuxième modification importante concerne les consonnes qui peuvent apparaître orthographiquement avec une apostrophe. C’est le cas de [l], [m], [n], et [s] dans, par exemple, l’eau [lo], m’ôter [mo.te], n’as [ty.na.pa] et s’est [sɛ]. Dans Lexique 3, ces consonnes sont transcrites respectivement [ɛl], [ɛm], [ɛn] et [ɛs] qui correspond à leur nom en isolation. Ces consonnes étant très fréquentes, ces transcriptions avaient un impact sur leurs fréquences. En effet, la fréquence calculée de ces consonnes quand elles sont situées après la voyelle était ainsi augmentée artificiellement. Dans un souci d’exactitude maximale, j’ai pris soin de corriger ces erreurs de transcriptions ainsi que d’autres détails plus mineurs n’ayant pas d’influence significative sur le calcul des fréquences de ces consonnes.

(62) Fréquences des consonnes en français selon leur position dans la syllabe

Comme on peut le constater d’après ce tableau, la fréquence d’une consonne peut varier fortement selon sa position dans la syllabe. C’est le cas du /ʁ/ qui est la consonne la plus produite après la voyelle (30,4%) mais qui en attaque n’est qu’au onzième rang (3,7%). Nous verrons dans les prochains chapitres si la fréquence de ces consonnes selon leur position à une influence sur le calendrier d’acquisition de Marilyn.