II.3.1.Le rythme seul

Les premières études dédiées au rythme de la parole emploient une segmentation manuelle du signal en consonnes et voyelles. Ces travaux ont naturellement été étendus par des systèmes de détection automatique des consonnes et des voyelles.

II.3.1.1.Segmentation manuelle en consonnes et voyelles

Ramus et coll. (1999) ont retenu 20 phrases pour chaque langue du corpus LSCP, en éliminant les phrases, dont la vitesse se différenciait trop des autres, afin d’éviter une normalisation du signal qui ne semble pas possible actuellement 76 (Ramus, 2002a). Trois variables ont été choisies pour caractériser le rythme :

  1.  %V, le pourcentage d’intervalles vocaliques, correspondant à la durée des intervalles vocaliquesToute séquence ininterrompue de voyelles., divisée par la durée totale de la phrase.
  2. ∆V, l’écart-type des durées d’intervalles vocaliques au sein de la phrase.
  3. ∆C, l’écart-type des durées d’intervalles consonantiquesToute séquence ininterrompue de consonnes. au sein de la phrase.

Les variables %V et ∆C permettent de regrouper les langues selon les trois grandes classes rythmiques classiques (syllabiques, accentuelles et moraïques).

Une régression logistique à partir de %V permet de discriminer des paires de langues. Les performances sont fonction des classes rythmiques, supérieures à 60 % dans le cas des langues de classes distinctes, inférieures à 60 % pour les langues d’une même classe. L’auteur ne propose pas d’identification des classes rythmiques elles-même. Les expériences de discrimination observées chez le nouveau-né sont simulées en appliquant un test de Mann-Whitney à la variable %V. Lorsque le test est inférieur à 0.05, les langues appartiennent à la même classe rythmique. Dans ce cas, l’Anglais et le Néerlandais sont bien distingués du Japonais, mais sont confondus entre eux (Ramus, 1999). Toutefois ces calculs ne permettent pas d’apporter de précision sur le mécanisme neurologique de traitement de la parole, qui effectue cette distinction.

Ces simulations faites à partir du pourcentage vocalique (Ramus, 1999) ont été également effectuées par Dominey et Ramus (2000) avec l’aide du réseau récurrent temporel TRN, décrit dans le chapitre 1. Les 20 phrases sont subdivisées en deux phases d’apprentissage et de validation de 10 phrases chacune, prononcées par quatre locuteurs distincts. Le réseau TRN reçoit en entrée la catégorie consonne ou voyelle par l’intermédiaire d’une des unités de la couche d’entrée. De plus, la durée n’est pas indiquée explicitement au réseau. Les classes rythmiques sont représentées soit par une seule langue (Anglais et Hollandais pour les langues accentuelles, et Japonais pour les langues moraïques), soit par une mixture de deux langues d’une même classe rythmique ou de classes rythmiques différentes. Les résultats obtenus concordent avec les études perceptuelles réalisées avec les nouveau-nés (Nazzi et coll., 1998). Ainsi, les langues d’une même classe rythmique ne peuvent être distinguées, contrairement aux langues de classes rythmiques distinctes. Un apprentissage non supervisé a également été testé. Les réseaux TRN entraînés avec l’Anglais, ont un temps de réaction plus long lorsqu’ils répondent pour les phrases Japonaises.

Tableau 3.2 Performances pour la discrimination des langues tirées de Dominey et Ramus (2000) et Ramus (1999).
Discrimination Anglais / Japonais Anglais / Hollandais
Classes rythmiques Différente Même
Nouveau-nés P < .01 P = .16
Corrélation des états du TRN par rapport aux classes rythmiques P < .001 P = .87
Performance du TRN 78 % 52 %
Régression %V 92.5 % 57.5 %
Adultes (condition sasasa plat) 68.1 % -
Test de Mann-Whitney P < .0001 P = 0.18

Les simulations précédentes proposent donc des méthodes pour tirer parti du rythme produit par les consonnes et les voyelles. Toutefois, il reste encore à déterminer comment celles-ci peuvent être identifiées au sein du signal de parole.

Notes
76.

Une normalisation du débit de parole peut être obtenue lorsque la différence de durées entre deux segments (vocaliques ou intervocaliques) est divisée par la durée totale de ces deux segments (Grabe et Low, 2002). La moyenne de ces différences normalisées caractérise alors une phrase et permet de retrouver les grandes classes rythmiques de langues.