IV.2.4.Application du TRN à d’autres langues

Nous allons maintenant examiner nos méthodes avec un corpus plus important (MULTEXT). Il est constitué de courts passages au lieu de phrases, et contient plusieurs locuteurs. En outre, le discours est plus proche d’un discours non contraint que le corpus LSCP. Il s’agit maintenant de passages et non plus de phrases isolées. En outre, nous ne présentons pas les résultats obtenus pour F0, mais ceux fournis pour une combinaison de la F0 et de l’intensité 105 . Le passage d’une représentation à l’autre ne provoque pas une différence significative.

Nous retrouvons des performances inférieures avec le corpus MULTEXT pour le Français, par rapport au corpus LSCP. Le taux d’identification de l’Anglais reste inférieur à celui du Français (Tableau 5.11 et 5.12). Comme pour les travaux précédents, nous retrouvons que le contour de la fréquence fondamentale a moins d’impact sur l’identification des mots de fonction et de contenu en Anglais qu’en Français. En outre, les performances sont indiquées pour la population de 50 réseaux. L’écart type des performances de la population est très faible, et une sélection effectuée pendant la phase d’apprentissage ne permet pas d’améliorer les performances. Il s’en suit que tous les réseaux TRN exhibent des performances voisines, et sont en mesure de distinguer les mots de contenu des mots de fonction.

Tableau 5.11 Moyenne des performances des 50 réseaux pour l’identification des mots de fonction de contenu à partir de la fréquence fondamentale, lors de la phase de validation.
Tableau 5.11 Moyenne des performances des 50 réseaux pour l’identification des mots de fonction de contenu à partir de la fréquence fondamentale, lors de la phase de validation. Pour le corpus LSCP, la moyenne des performances obtenues sur chaque moitié du corpus LSCP est indiquée. Pour le corpus MULTEXT, la moyenne des 10 locuteurs est donnée. Entre parenthèses, figurent le pourcentage de la catégorie majoritaire et les écart types de la population.

En outre, nous avons étudié les résultats du cochléogramme. Les indices prosodiques peuvent être utilisés pour marquer une distinction entre les mots de contenu et les mots de fonction. L’adjonction d’une représentation spectrale permet d’améliorer les performances. Le taux d’identification est inférieur pour l’Anglais (cf. Tableau 5.12).

Tableau 5.12 Performance du réseau le plus performant parmi 50 en validation pour l’identification lexicale des mots.
Tableau 5.12 Performance du réseau le plus performant parmi 50 en validation pour l’identification lexicale des mots.

La section précédente (IV.2.1) a montré une différence de comportement suivant la segmentation (soit les groupes de mots de même catégorie lexicale, soit les mots). Effectivement, les performances sont améliorées pour les mots avec la durée, mais diminuent lorsqu’il s’agit de prototype prosodique. Le TRN utilisant la prosodie, les taux d’identification devraient donc être inférieurs dans le cas des mots.

Pour obtenir l’avant-dernière ligne du tableau 5.12, toutes les combinaisons des réseaux TRN ont été étudiées (50 x 50 essais). A titre de comparaison, nous avons effectué la même opération avec seulement les réseaux qui ont encodé la F0. Les performances sont alors de 71,5 % pour le Français, ce qui reste inférieur au mélange obtenu avec la cochlée (73,6 %). Le cochléogramme a donc une influence sur les performances d’identification. La figure 5.18 représente l’activation moyenne au cours du temps des neurones d’entrées en fonction des bandes de fréquences, pour les catégories fonction et contenu. L’intensité apparaît comme étant plus faible pour les mots de fonction pour toutes les bandes de fréquences, notamment pour celles les plus basses, correspondant à la prosodie. L’influence de cet indice devrait être étudiée de manière isolée pour l’identification lexicale.

Le TRN exécute la distinction Contenu/Fonction avec un taux proche de la détection explicite des pics F0. Ces deux taux sont supérieurs à une estimation aléatoire. Les corpora Français LSCP et MULTEXT donnent des performances différentes, mais leur contenu syntaxique diffère également. Le corpus LSCP contient seulement des phrases entre 15 et 21 syllabes, alors que le corpus MULTEXT est constitué de courts passages, ayant une structure syntaxique plus proche du discours spontané. Néanmoins ces distinctions ne rendent pas impossible la catégorisation lexicale.

Figure 5.18 Moyenne des activations spectrales pour les mots de fonction et de contenu,
Figure 5.18 Moyenne des activations spectrales pour les mots de fonction et de contenu, en abscisse les fréquences et en ordonnées la valeur moyenne d’activation (obtenue à partir du cochléogramme sur le corpus MULTEXT pour le Français)

L’intérêt de ce travail est également d’observer le comportement du TRN pour d’autres langues. Le tableau 5.13 indique que le contour intonatif peut également être employé pour identifier les catégories lexicales pour l’Anglais. En conclusion, le TRN peut exectuer une catégorisation lexicale des mots isolés comme les nouveau-nés ont pu l’accomplir dans la tâche perceptuelle décrite dans Shi et coll. (1999).

Tableau 5.13 Moyenne des performances des 50 réseaux pour l’identification des mots de fonction et de contenu à partir de F0 (Moyenne des 10 locuteurs pour le corpus MULTEXT 
Tableau 5.13 Moyenne des performances des 50 réseaux pour l’identification des mots de fonction et de contenu à partir de F0 (Moyenne des 10 locuteurs pour le corpus MULTEXT  et moyenne des deux moitiés du corpus LSCP)

Le tableau 5.13 donne les performances d’identification de chaque catégorie fonction et contenu. La majorité des mots de contenu sont identifiés en Français, alors que ceux-ci sont moins correctement identifiés en Anglais. Pour les deux langues, plus de la moité des mots de contenu peuvent être identifiés. Les mots de fonction sont identifiés de façon identiques dans les deux langues.

Notes
105.

L’intensité indique l’activation du neurone correspondant à la F0 calculée.