IV.Expérimentation

Au cours de cette section, les résultats obtenus en DEA sont brièvement énumérés. Il s’agit de valider que le réseau TRN peut traiter la fréquence fondamentale et sa structure temporelle. Ensuite deux expériences complémentaires menées durant la thèse seront décrite.

IV.1.Identification des attitudes prosodiques (Blanc et Dominey, 2003)

Le but de notre travail était de reproduire par un système informatique les résultats de tests subjectifs réalisés dans le cadre du Travail de Maîtrise de T. Grépillat (Aubergé et coll., 1997). La première partie du travail de DEA a décrit les performances de classification de modèle gaussien (99.6 % pour F0 ; 52.6 % pour le rythme) et de réseaux SRN (97 % pour F0). Les deux modèles basés sur F0 ne tiennent pas compte des durées, 3 valeurs de F0 par syllabe sont transmises au modèle. Le TRN devrait naturellement prendre sa place entre des performances humaines et les résultats des modèles mathématiques.

Le dernier type de codage donne les meilleurs résultats sur le corpus de validation, mais il fait appel au plus grand nombre de paramètres. Le nombre de neurones dont l’activité est non nulle doit se situer dans le ratio de 7 pour 15, soit un peu moins de la moitié des neurones. Cependant, l’apprentissage reste un des meilleurs sur le codage par population ne se servant que de trois neurones, c’est à dire qu’une seule unité du réseau est activée pour une plage de fréquences donnée.

D’autre part, l’utilisation de la courbe de Gauss permet l’augmentation des performances lorsque le nombre de neurones augmente de façon significative. De même, la continuité de la F0 dans le temps autorise de meilleurs résultats, pour la validation en priorité. L’apport de l’information consonne ou voyelle augmente les performances dans le cas où le nombre de neurones codant la fréquence est supérieur à celui de ceux codant consonnes et voyelles. Dans le cas contraire, cette information gêne le travail de catégorisation du réseau récurrent.

Tableau 4.1 Pourcentage d’identification correcte du réseau le plus performant en apprentissage en fonction des méthodes et des paramètres pour coder F0.
Tableau 4.1 Pourcentage d’identification correcte du réseau le plus performant en apprentissage en fonction des méthodes et des paramètres pour coder F0.
Figure 4.4 Performance d’identification des attitudes prosodiques pour les êtres humains (colonne 1), pour 50 réseaux TRN (colonne 2), et pour les 5 réseaux TRN les plus performants en apprentissage (colonne 3), tirée de Blanc et Dominey, 2003. Les barres indiquent l’écart-type des performances.
Figure 4.4 Performance d’identification des attitudes prosodiques pour les êtres humains (colonne 1), pour 50 réseaux TRN (colonne 2), et pour les 5 réseaux TRN les plus performants en apprentissage (colonne 3), tirée de Blanc et Dominey, 2003. Les barres indiquent l’écart-type des performances.

Ce dernier résultat a été repris dans un article (Blanc et Dominey, 2003), avec une population de réseaux, obtenus avec le programme du TRN réécrit en C++, et uniquement à partir de l’information de F0.