II.3.1.2.Segmentation automatique

Les résultats obtenus par Mehler et coll. (1996) suggèrent que les nouveau-nés utilisent une perception approximative du signal fondée sur la sonorité. Galvès et coll. (2002) déterminent une fonction qui associe une partie du signal à une classe sonore (0 ou 1), de façon à segmenter la parole en deux grandes classes pseudo-phonétiques, proches des consonnes et des voyelles 79 . La valeur moyenne de la sonorité au cours d’une phrase joue alors le rôle du pourcentage moyen de voyelles. Les langues du corpus LSCP sont alors classées en fonction de leur classe rythmique sans faire appel à une segmentation manuelle. Leurs résultats sont semblables (excepté pour le Polonais) à ceux obtenus par Ramus et coll. (1999). Toutefois, leurs approches évitent de recourir à ces catégories phonétiques, aussi précises que les consonnes et les voyelles, auxquelles les nourrissons ne semblent pas avoir accès avant 6 et 9 mois.

L’Identification Automatique de 5 langues tirées du corpus MULTEXT a été réalisée à partir d’une caractérisation locale du rythme (Pellegrino, Chauchat, Rakotomalala et Farinas, 2002 ; Farinas, 2002). Un modèle du rythme de la parole doit tenir compte des informations segmentales (partie voisée/non-voisée de la parole), et suprasegmentales (organisation des unités rythmiques sur la totalité du discours). Les auteurs ont recours à la notion de pseudo-syllabe, pour obtenir une définition locale du rythme. Cette segmentation automatique sera employée pour le traitement global du rythme (décrite dans la section III.2.1). Elle sera utilisée pour les premières expérimentations (section IV.1 et IV.2).

La fréquence fondamentale est une autre information prosodique pertinente pour l’IAL, comment est-elle traitée dans les systèmes d’IAL ?

Notes
79.

Il calcule l’entropie relative entre le spectre courant normalisé et les trois spectres normalisés précédents (fréquences entre 0 et 800 Hertz). La fonction de sonorité correspond à la moyenne de quatre entropies relatives consécutives.