III.Matériel et méthodes

Cette partie s’articulera autour de trois points : 1. les corpora employés (MULTEXT et LSCP), 2. l’obtention de valeurs de la F0, 3. Les méthodes de traitement de ces valeurs.

III.1.Corpora

Chacun des deux corpora est segmenté manuellement en mots. Cette étape est nécessaire, et à l’heure actuelle aucune étude n’a entrepris d’identifier la catégorie lexicale d’un mot, sans savoir auparavant à quelle partie du signal il correspond. En outre, nous avons pris en compte deux segmentations. La première est basée sur les mots d’une même catégorie lexicale. Ainsi, deux mots de contenu se suivant ne font qu’un seul groupe. Dans ce cas les groupes de mots de fonction et de contenu se succèdent alternativement. La seconde emploie les mots eux-même, donc deux mots de contenu peuvent se succéder.

Figure 5.1 Exemple de segmentation manuelle d’une phrase, réalisée par C. Dodane (Tout en haut est figurée la F0, et en dessous un spectrogramme).