2.3.2 les expériences en parole naturelle

Les premières expériences ayant pour but de comparer les résultats en parole naturelle avec ceux obtenus en reconnaissance automatique sont mentionnées par Muthusamy, Barnard, & Cole (1994) et datent de 1968. Le paradigme expérimental consiste en la présentation d’une suite de stimuli sonores généralement de courte durée à un groupe d’auditeurs. Les stimuli sont extraits d’enregistrements acoustiques en plusieurs langues que les sujets ne parlent pas. On demande aux sujets d’identifier la langue d’origine de chaque stimulus et, parfois, on leur facilite la démarche au travers d’un apprentissage préalable des langues testées. Le principal traitement des données obtenues par le biais des réponses des sujets consiste en l’analyse statistique des scores de réussite.

Atkinson (1968) est le premier chercheur qui a mis en évidence des scores de discrimination entre l’anglais et le français qui sont supérieurs à la chance, et ce au travers d’une expérience perceptive où les sujets ont eu à discriminer entre des stimuli des deux langues qui avaient subi une modification afin de ne préserver que les informations liées à la fréquence fondamentale et aux variations d’amplitude. Mais, Muthusamy et ses collaborateurs estiment qu’il s’agit d’expériences très limitées quant au nombre de locuteurs et surtout au type de corpus utilisés. En effet, le premier corpus qui a réellement permis de mener des expériences perceptives adaptées a été OGI-TS (Muthusamy, 1993). Ce corpus contient de la parole téléphonique dans 11 langues (anglais, farsi, français, allemand, hindi, japonais, coréen, mandarin, espagnol, tamil et vietnamien) produites par 90 locuteurs différents.

Auparavant, l’une des premières études significatives est celle de Lorch & Meara (1989). Les auteurs ont testé les capacités des auditeurs à identifier des langues inconnues après 20 secondes d’écoute, à faire la différence entre les sons spécifiques, à transcrire des syllabes, voire des mots et à déterminer la famille des langues testées. Dans le même sens, Muthusamy & Cole (1992) ont testé la capacité des monolingues américains à identifier 10 langues inconnues après un minimum de 1 seconde et un maximum de 6 secondes de parole. La plupart des langues leur étaient complètement inconnues, pourtant les sujets ont fourni les taux de reconnaissance suivants : pour 1 seconde de parole - 36% de bonne reconnaissance, pour 2 secondes de parole - 43% de bonne reconnaissance, pour 4 secondes de parole - 51,2% de bonne reconnaissance et pour 6 secondes de parole - 54,6% de bonne reconnaissance. De plus, il a été observé que les performances des sujets humains sont remarquables, même quand il s’agit de la parole téléphonique (Muthusamy, Jain & Cole, 1994). Dans cette étude, il s’agissait de tester une population représentée par dix sujets américains écoutant dix langues non-familières ainsi que des sous-groupes de deux sujets non-anglophones dont la langue maternelle était une des langues de test, écoutant les neuf langues restantes. Les extraits avaient une longueur de 1 seconde à 6 secondes et les résultats ont montré que les scores en identification dépendent de la longueur de l’extrait et de la familiarité des sujets avec les langues testées. Dans le même sens, Bond & Fokes (1991) ont testé la capacité des adultes humains à discriminer les langues en condition de bruit où des informations importantes du signal sont absentes, tandis que Stockmal, Muljani & Bond (1994) ont montré que les enfants fournissent des taux de reconnaissance comparables aux adultes, surtout quand ils ont atteint l’âge scolaire.

Ce type de tests fournit également des informations sur les critères qui sont utilisés dans l’identification linguistique.

Ainsi Stockmal, Muljani & Bond (1996) mènent une expérience perceptive pour déterminer quelles propriétés perceptives des stimuli permettent aux sujets de différencier plusieurs langues appartenant à des familles linguistiques éloignées (le corpus contenait des extraits en arabe, en japonais, en chinois, en indonésien, en russe et en espagnol). Les propriétés examinées se trouvent au niveau de la structure phonologique des langues de test. Il s’est avéré que les sujets ont réussi à grouper les langues d’après des critères linguistiques tels que les propriétés psycho-acoustiques de la fréquence fondamentale, le type syllabique de la langue ou le débit de parole. Afin de distinguer l’information caractéristique de la langue de l’information caractéristique du locuteur, Bond, Stockmal & Moates (1998) ont mené une expérience utilisant un corpus de huit paires de langues produites par des locuteurs bilingues. Selon les trois auteurs, les auditeurs naïfs sont capables de différencier l’information spécifique à la langue de celle caractéristique de la voix du locuteur. Stockmal & Bond (1999) ont mené deux expériences pour identifier les indices qui permettent de discriminer d’une part, le coréen des langues ayant une structure rythmique similaire et, d’autre part, le coréen des langues se trouvant dans la même zone géographique. Il s’est avéré que les indices utilisés pour la discrimination semblent être de nature complexe, linguistique et extra-linguistique. Pour la première partie de l’expérience, consacrée à l’identification selon le pattern rythmique, les indices exploités sont liés à la zone géographique de provenance de la langue et aux propriétés phonotactiques des idiomes présentés lors du test. Pour la seconde partie de l’expérience, consacrée à l’identification géographique, les indices ont été liés aux caractéristiques des voix des locuteurs, aux variations de fréquence fondamentale et, finalement, aux particularités de l’inventaire vocalique de chaque langue. Enfin, dans une expérience récente (Marks, Bond & Stockmal, 1999) ont mis en évidence le rôle de l’entraînement dans l’amélioration des performances des humains en identification linguistique. En effet, il semble que les auditeurs qui ont bénéficié d’une exposition antérieure à d’autres langues que la langue maternelle (dans leur cas, des sujets bilingues en anglais et en espagnol) arrivent à mettre à profit l’apprentissage pré-test avec beaucoup plus de succès que les auditeurs monolingues (dans ce cas, des anglophones).

En guise de conclusion partielle, nous notons quelques éléments d’intérêt pour nos propres études expérimentales sur les langues romanes. Il s’agit tout d’abord du fait qu’au bout de quelques secondes de parole, les sujets humains (enfants ou adultes) sont capables d’identifier des langues complètement inconnues avec de bons scores de réussite. En outre, ils sont capables d’évoquer les critères linguistiques qui leur ont permis d’identifier les langues.

De manière générale, les expériences ayant comme objectif la mise en évidence d’indices discriminants gravitent autour de deux niveaux linguistiques précis, à savoir le niveau segmental et supra-segmental. L’objectif est la hiérarchisation des deux niveaux et une meilleure prise en compte des composantes robustes de chaque niveau. Ainsi, nous préciserons ci-dessous les démarches expérimentales consacrées à l’identification de traits discriminants segmentaux et supra-segmentaux, respectivement.