II.2.2.Dévoilement progressif (« gating ») (Aubergé et coll., 1997)

Les données apportées par ce type d’expérience permettent d’évaluer quelle peut être la quantité d’information nécessaire pour distinguer une attitude prosodique.

Le paradigme du dévoilement progressif consiste à dévoiler progressivement un stimulus de parole, depuis son commencement jusqu’à sa fin. Pour cette étude, les stimuli sont des phrases de 5 syllabes. Le découpage du stimulus est temporel et s’effectue syllabe par syllabe. Cette portion du signal est nommée fenêtre (« gate  »).

Dans ces travaux sur le Danois, Thorsen (1980) dévoile progressivement des segments de phrases non typées provenant de trois types d’énoncés : déclaratif, continuatif et interrogatif. Les sujets ont ainsi à deviner qu’elle est la fonction de l’énoncé dont ils n’entendent qu’une partie. Les résultats montrent que le taux d’erreur décroît lentement jusqu’au premier groupe accentuel pour lequel il chute rapidement. Ainsi, elle montre que le début de la phrase transmet assez d’éléments à même d’autoriser une reconnaissance correcte. Le Hollandais Van Heuven et ses collaborateurs (1997) ont également réalisé une expérience de dévoilement progressif sur deux attitudes en Néerlandais. Ils concluent aussi que les sujets sont capables d’identifier ces deux attitudes prosodiques, bien avant la fin de la phrase.

Cette expérience fait appel uniquement aux 6 phrases de 5 syllabes du corpus « identification et gating » (Morlec, 1997). Le découpage est syllabique, les syllabes ôtées sont substituées par un bruit blanc dont la durée a été fixée à deux secondes. Cette mesure interdit à l’auditeur d’estimer la longueur totale de la phrase entendue. Les six attitudes sont représentées pour chaque phrase, soit 180 stimuli pour un auditeur.

Six sujets, de langue maternelle française, ont participé à l’expérience de dévoilement progressif. Ils n’ont reçu aucune phase d’entraînement. Pendant l’expérience, l’auditeur garde la trace écrite de la phrase qu’il a traitée, afin de minimaliser le nombre d’ambiguïté liée à la sémantique. Il est également informé de la définition des attitudes.

Dés la deuxième syllabe, le taux de reconnaissance est élevé. De plus, la plus grande progression se situe entre les deux premières syllabes (+27 %), ce qui corrobore les études antérieures. Ces tests montrent que les attitudes prosodiques sont accessibles à l’auditeur de manière robuste et précoce, avant la fin de l’énoncé (voir Figure 4.4).

Les travaux présentés ci-avant prouvent que les émotions sont portées par plusieurs composantes prosodiques et phonétiques. Cependant, notre objectif au cours de ce chapitre est de montrer que le réseau TRN peut encoder non seulement la structure rythmique, mais aussi la structure donnée par le contour de la fréquence fondamentale. C’est pourquoi nous ne retiendrons que ces composantes (F0 au cours du temps) pour décrire les différentes attitudes.