III.2.Représentation des données

Nous examinerons deux types de valeurs de F0, obtenues avec deux logiciels de traitement du signal différents. Nous ferons intervenir uniquement deux catégories phonétiques : consonnes, voyelles. Chacune de ces catégories est encodée par un seul neurone de la couche d’entrée (section IV.2.1).

Pour les premières expériences avec le corpus LSCP, la fréquence fondamentale est extraite par intervalles de 10 ms, en utilisant le logiciel BLISS, de John Mertus. Ces valeurs ont été transmises par le laboratoire LSCP. Les valeurs de la fréquence fondamentale (F0 : données brutes) ont également été obtenues par l’autocorrélation du signal chaque 5 ms, (logiciel de PRAAT ; Boersma 1993). Ces valeurs de F0 ont été transmises au TRN, par l’intermédiaire d’une courbe de Gauss.

Les valeurs brutes de la F0 subissent un traitement de façon à obtenir une représentation proche de l’impression laissée par la perception. L'algorithme MOMEL (Hirst et Espesser, 1993) a été employé pour obtenir une représentation perceptuelle acceptable de l’intonation à partir des valeurs brutes de F0. L’application d'une courbe continue lisse (basée sur des fonctions splines quadratique) reflète le contour intonatif de la parole. Une description plus détaillée de cet algorithme a fait l’objet du chapitre 2 (section III.2.2) consacré à la prosodie. Les commandes Interpolate et Smooth du logiciel PRAAT seront aussi employées pour obtenir une représentation continue et lissée des valeurs de F0.

Nous utiliserons également un spectrogramme (basé sur une échelle de perception Mel ou linéaire) pour représenter la partie prosodique dédiée à la fréquence fondamentale. Ainsi, la première couche d’entrée du réseau est constituée par une représentation spatio-temporelle du signal. Nous envisageons d’étudier trois représentations des fréquences inférieures à 400 Hz :

  1. Un spectrogramme avec une fenêtre d’analyse de 80 ms en ne tenant compte que des valeurs inférieures à 400Hz. La résolution fréquentielle est fixée à 2.75 Hz, et conduit à 143 neurones d’entrées. Chaque valeur est multipliée par 500. Nous tiendrons compte d’un spectrogramme avec les fréquences inférieures à 5000 Hz et résolution de 20 Hz conduisant à 256 neurones d’entrées.
  2. un cochléogramme : La résolution fréquentielle est fixée à 10 Barks, la taille de la fenêtre d’analyse est de 30 ms, la fenêtre de masquage rétrograde est de 30 ms également. Ces valeurs sont les valeurs par défaut du logiciel PRAAT.
  3. Un spectrogramme dont les valeurs des filtres sont alignés sur une échelle de perception Mel (algorithme Melfilter de PRAAT) inférieures à 500 mels avec une fenêtre d’analyse de 60 ms. La résolution est de 12.5 mels ce qui conduit à 40 neurones d’entrées.