V.2.Extension à un nouveau corpus et une nouvelle langue

Pour le corpus LSCP en Français, les indices prosodiques situés à la fin des mots permettaient l’identification lexicale. Un des point important de notre étude est que nous avons pu valider nos hypothèses développées sur le corpus LSCP Français à partir des groupes de mots, sur le corpus MULTEXT qui comprend 10 locuteurs masculins et féminins, deux langues (Anglais et Français) et une segmentation en mots. Dans chacun de ces cas, le taux d’identification est nettement supérieur au hasard. Cependant, l’Anglais semble avoir moins souvent recours aux indices intonatifs par rapport au Français.

Le corpus MULTEXT emploie de courts passages de parole, alors que le corpus LSCP ne contenait que des phrases isolés. Hirschberg (1993) précise que tous les mots de contenu ne sont pas accentués en Anglais, particulièrement lorsqu’il s’agit de textes longs. Cette remarque pourrait expliquer une partie des différences observées entre les deux corpora.

En utilisant un algorithme qui a été démontré pour représenter les composantes macro-prosodiques de l’intonation, nous avons montré que les pics de F0 caractérisaient les mots de contenu en Français (cf. IV.1.3). Nous avons retrouvé une distinction entre l’Anglais et le Français, puisque les performances d’identification sont supérieures pour le Français. Ainsi, un même indice peut avoir une contribution différente suivant les langues, comme cela avait déjà été démontré par Shi et coll. (1998).

Nous avons également abordé le problème de l’identification des noms et des verbes, avec certaines des techniques élaborées avec les mots de fonction et de contenu (cf. IV.1.5). Nous prouvons ainsi que les méthodes employées peuvent se répercuter sur d’autres catégories lexicales.

Toutefois, ces résultats sont minimisés car il s’agit uniquement de parole lue 106 (Fernald et McRoberts, 1996), alors que le travail de Shi et coll. (1998) a été effectué dans le cas d’un discours non contraint.

Notes
106.

Pourtant, l’application de la détection des pics de F0 au corpus développé par Plunkett indique que cette règle peut s’appliquer à la fois pour le discours lu et la parole non contrainte. Ce premier résultat très positif devrait être étayé par des études complémentaires (résultats non indiqués).