II.2.1.Parole naturelle

II.2.1.1.Adultes

Les études traitant des expériences perceptuelles en IAL sont moins nombreuses que les publications sur les systèmes eux-même. 5 études seulement ont été effectuées avec des sujets humains adultes : Muthusamy et coll., 1994 ; Stockmal, Muljani et Bond, 1996 ; Bond, Stockmal et Muljani, 1998 ; Lorch et Meara, 1989 et 1995).

Avant de présenter un système d’IAL en 1996, Muthusamy et coll. (1994) proposent d’étudier les indices utilisés par les êtres humains ⁶⁶ . Des connaissances dans une langue donnée facilitent son identification (taux d’identification de 44 % lorsqu’une seule langue est connue à 67 % pour quatre langues). Bond et Fokes (1991) avaient également montré que l’exposition à une langue est un facteur déterminant dans la réussite de son identification. Ainsi il est plus facile pour des Coréens d’identifier du Chinois ou du Mandarin, ou pour des Espagnols d’identifier du Sud-américain. Deux facteurs socio-linguistiques jouent un rôle primordial dans la reconnaissance des langues : la familiarité avec les langues et les particularités de la langue maternelle. La durée des extraits et le nombre de langues connues sont également des facteurs de la performance d’identification (Vasilescu, Hombert et Pellegrino, 2000).

Un second type d’étude doit donc être envisagé, pour déterminer comment des sujets humains se comportent face à une langue inconnue. Les sujets devaient juger si deux passages de langues étrangères correspondaient à la même langue, et expliquer les raisons de leur choix. Lorch et Meara (1995) testent la discrimination de deux langues étrangères (Farsi et Grec). Les score moyens sont relativement peu élevés 62.6 % au premier essai, et 64.9 % pour le suivant. Le meilleur score est de 88 %, et certains sujets répondent très en dessous du hasard, alors que l’identification des voix est aisée (96 %). La faiblesse de performances peut s’expliquer par la présence de sons existant en Anglais. A travers cette étude, la discrimination de deux langues inconnues semble relativement difficile pour des êtres humains.

Une expérience plus récente propose d’étudier si des adultes peuvent créer une représentation du Japonais afin de discriminer celui-ci de l’Arabe, du Russe, de l’Indonésien et du Chinois. (Bond et coll., 1998). Deux questions ont été abordées :

Est-ce qu’une exposition minimale à une langue peut améliorer son identification ?
Quelle est l’influence de cette exposition ?

La première expérience concerne des expositions de courtes durées (liste de mots ou histoires), pour deux périodes de 5 ou 15 minutes. Seule l’histoire donne une idée de la prosodie d’une langue. Le matériel audio ne contient pas les mots les plus connus qui permettraient l’identification d’une langue. L’exposition de 5 minutes a un effet sur les scores d’identification. Les sujets créent une représentation stable du Japonais, mais elle n’est pas conservée en mémoire après une pause de 30 minutes. Comme l’exposition à un seul locuteur pourrait être la cause de cet échec ⁶⁷ , l’expérience a été alors adaptée avec trois locuteurs différents. Lorsque le test d’identification suit immédiatement l’entraînement, les performances sont améliorées. Cependant, ces effets disparaissent toujours au cours du temps. En outre, quelques sujets ont des scores élevés, mais la majorité a des difficultés pour extraire les indices provenant de plusieurs locuteurs ⁶⁸ .

La prosodie est la seule dimension accessible au sujet qui ne maîtrise pas la langue, mais d’autres indices sont présents dans le discours. Les auditeurs sont également gênés par l’arrivée massive d’information dans le cas d’un discours. Effectivement les sujets essayent de découvrir des mots dans le discours, travail qu’ils n’ont pas à effectuer dans le cas des mots isolés.

Il est difficile de savoir si les sujets séparent bien des langues distinctes et non des locuteurs distincts. Stockmal et Bond (1998) ont alors réalisé une expérience avec un seul locuteur parlant 2 langues, inconnues des sujets, qui ont cependant réussi à séparer les deux langues.

L’objectif principal de toutes ces études est d’isoler les indices utilisés par les sujets pour distinguer des langues. La complexité des systèmes vocaliques (Français, Portugais vs. Italien, Roumain, Espagnol), et la présence de segments consonantiques spécifiques (la présence des dentales fricatives /S Z/ en Roumain et Portugais) entrent en jeu lors de l’identification d’une langue (Vasilescu et coll., 2000). Muthusamy et coll. (1994) répertorient un certain nombre de distinctions sur des phonèmes caractéristiques de certaines langues :

Son aspiré pour le Farsi, occurrence fréquente de /sh/
Beaucoup de sons nasaux pour le Français
Allemand : le mot ich est reconnu, « harch » son aspiré (vélaire) ; confusion avec le Farsi
Japonais : « crips » stops, des mots distincts sont reconnus : watashiwa et mashita
Coréen : le mot imnida.
L’Espagnol est caractérisé par certains sons comme la paire « eh-s »
Tamil /r/ et /l/
Le Vietnamien contient plusieurs nasales distinctives, vélaire nasale /ng/

Les sujets mentionnent également certaines dimensions prosodiques :

Le Timbre de la voix oula qualité de la voix rappelle celle d’un de leur proche étranger ⁶⁹ (Muthusamy et coll., 1994 ; Stockmal et coll., 1996 ; Lorch et Marea, 1995).
L’Intonation pour les langues utilisant des excursions de l’intonation sur des courtes durées ⁷⁰ . Ainsi, le Japonais et Chinois sont regroupés dans la représentation perceptive ⁷¹ proposée par Stockmal et coll. (1996). La même confusion entre le Vietnamien, le Chinois Mandarin et la Japonais est observée chez Muthusamy et coll. (1994), mais avec des locuteurs multilingues. Le Français (Muthusamy et coll., 1994) et l’Italien (Vasilescu et coll., 2000) sont également reconnus par leur intonation.
Le Rythme : Les auditeurs se plaignent que la vitesse est trop rapide pour certaines langues étrangères (Stockmal et coll., 1996 ; Lorch et Marea, 1995). L’Espagnol donne l’impression d’un débit de parole élevé (Muthusamy et coll., 1994). Des sujets anglais semblent reconnaître des mots dans le cas de l’Arabe et du Russe (Stockmal et coll., 1996). Une segmentation en mot pourrait être effectuée par les sujets dans la mesure où l’Arabe et le Russe appartiennent aux langues accentuelles tout comme l’Anglais, langue maternelle des sujets de ces expériences. Ceci conforte l’idée que les différences rythmiques de ces langues pourraient être liées aux techniques de segmentation effectuées par les sujets (Cutler, 1996).

L’intégration de toutes les dimensions constitue la clef d’une distinction réussie entre plusieurs langues (Stockmal et coll., 1996). Les adultes utilisent plusieurs sources d’informations, tandis que les enfants scolarisés utilisent principalement des indices segmentaux (Bond et coll., 1998). Les plus jeunes sont influencés quant à eux par la voix du locuteur, et des indices prosodiques comme le rythme ou la tonalité ⁷² .

Notes

66.

L’identification des langues est effectuée avec 10 sujets anglais et 2 sujets ayant pour langue maternelle chacune des neuf langues restantes. Les signaux de paroles sont tirés de la base OGI-MLTS. Les extraits sont issus des passages de parole spontanée (autour de 1 minute) et contiennent moins d’une moitié de silence.

67.

Une étude a montré que la discrimination des phonèmes /r/ et /l/ par auditeurs Japonais –qui ne connaissent pas cette distinction phonémique- est facilitée lorsque les sujets entendent plusieurs locuteurs (Lively, Logan et Pisoni, 1993).

68.

Des études ont également montré que la variabilité des locuteurs affectait la mémoire lors de la rétention de liste mots (Goldinger, Pisoni et Logan, 1993 ; Martin, Mullennix, Pisoni, Summers et Palmeri, 1989 ; Palmeri, Goldinger et Pisoni, 1993).

69.

Cette idée se rapproche des techniques d’Identification du locuteur, mises en œuvre par Li et Edwards (1994) qui s’appuient sur les propriétés spectrales des voyelles pour l’IAL.

70.

Langues à tons comme le Chinois Mandarin.

71.

Cette expérience est conduite avec des sujets Américains qui connaissent mal les langues asiatiques.

72.

En citant un article de Burnham et Torteson (1995), Bond et coll. (1998) précisent que l’utilisation de la prosodie ne s’étend pas après 5 ans chez les enfants.