I.3.Identification des catégories lexicales : mots de Fonction et de Contenu

Nous nous sommes intéressés au traitement de la prosodie globale, pour une langue ou pour une phrase. Quelle tâche est-il possible d'accomplir avec le TRN, pour montrer qu’il peut traiter la prosodie localement, par exemple, pour un mot ?

Un de problèmes surmontés par les enfants lors de l’acquisition du langage est l’association d’un mot avec une catégorie lexicale. Plusieurs solutions ont été imaginées pour relever ce défi. L’une d’entre elles postule que la prosodie différerait entre les mots de fonction et les mots de contenu, et guiderait leur distinction. Partant de ces deux catégories de bases, l’acquisition des catégories grammaticales, puis de la syntaxe seraient facilitée pour les enfants.

Nous avons retrouvé que la prosodie pouvait distinguer les mots de fonction et de contenu avec des méthodes statistique (Analyse Discriminante) ou connexionniste (carte auto-organisatrice). Ensuite, nous avons montré que la position du maximum de F0 était un élément important dans cette distinction. A l’aide de l’expertise apportée par C. Dodane, nous avons conclu que les pics de F0 étaient un indice potentiel pour cette distinction. Nous voulions alors vérifier la règle suivante : Si un mot contient un pic de F0, il s’agit d’un mot de contenu, et dans le cas contraire d’un mot de fonction. Cette règle conduit à des scores de 64,5 % et 73,1 % d’identification correcte pour l’Anglais et le Français du corpus MULTEXT.

De plus, cet indice répond aussi au critère de minimalité des mots de fonction, puisqu’ils sont plus rarement mis en exergue par un pic de F0, par rapport aux mots de contenu. Les nourrissons particulièrement sensibles aux pics de F0 privilégieraient alors les mots de contenu au sein du signal de parole, et ce d’autant plus facilement que les variations de F0 sont augmentées dans le cadre du langage adressé à l’enfant.

Le réseau TRN est alors employé pour encoder le trajet de la F0 sur un mot. Il suffit pour cela d’enregistrer les activation des unités du réseau TRN après chaque fin de mot. La catégorie (Fonction/Contenu) des mots est alors reconnue avec un score de 62,8 % pour l’Anglais et de 70,3 % pour le Français (corpus MULTEXT), pour le réseau le plus performant en validation. Ce score reste supérieure au hasard pour 50 réseaux, dont les poids sont définis aléatoirement. En outre, le réseau TRN ne peut tenir compte de la durée. Or, les études antérieures (Shi et coll., 1998) n’avaient pas réussi à montrer une distinction à partir du seul indice des variations de la fréquence fondamentale, lorsqu’il est normalisé par la durée.

Comme cela avait été suggéré puis montré par Shi et coll. (1998), nous retrouvons que les langues ne se réfèrent pas aux mêmes indices pour distinguer les catégories syntaxiques. Ainsi, la F0 a plus d’impact pour la distinction fonction/contenu en Français, qu’en Anglais. De surcroît, les indices que nous utilisons n’ont pas été isolés à l’intérieur des mots. Les études s’intéressant à la catégorisation lexicale (Shi et coll., 1998 ; Durieux et Gillis, 2000 ; Monaghan et coll., 2003 ; Reali et coll., 2003) s’appuient sur des indices isolés manuellement, comme les syllabes, les voyelles, le type des phonèmes ou la présence d’un accent. Dans notre cas, seule l’information fournie par la trajectoire de la fréquence fondamentale est utilisée.