IV.1.Détermination d’indices pour la catégorisation lexicale

Ce paragraphe résume les techniques utilisées pour identifier les catégories lexicales (fonction et contenu) à partir des mots considérés comme des segments isolés. Dans ce cas, les frontières de début et de fin encadrant le mot sont prises en compte. Le réseau TRN n’est pas utilisé. Nous étudierons les performances obtenues par des méthodes classiques soit en statistique avec l’évaluation obtenue en calculant la distance entre un item et un prototype moyen, l’analyse discriminante (utilisation du logiciel SPSS) ; soit en connexionisme avec des réseaux probabilistes.

Les données sont représentées au cours du temps avec un échantillonnage de 10 ms. Dans un premier temps, seules les valeurs de la fréquence fondamentales sont employées. A partir de ces données nous extrayons un certain nombre de statistiques pour caractériser les mots, par exemple la position du maximum de F0, la valeur moyenne de la F0. Nous obtenons une matrice où sont indiqués la catégorie des mots, leurs durées et les valeurs obtenues pour les statistiques. Sauf mention contraire, le corpus considéré sera le corpus LSCP Français.

Tout d’abord, les informations de durée et les valeurs de F0 seront considérées sur le domaine de la voyelle (IV.1.1). Ensuite, l’impact de la durée des mots (IV.1.2), et de leurs contours intonatifs seront distingués (IV.1.2). Les contours intonatifs seront par la suite réduits à la seule information de la présence d’un pic d’intonation (IV.1.4). Enfin, des prototypes du contour de F0, de l’intensité et des premiers formants seront pris en compte pour identifier en premier lieu les groupes de mots de même nature lexicale, puis les mots eux-même (IV.1.5).