3.2 Méthode et Corpus

Notre approche se distingue des précédentes par le choix délibéré et homogène des idiomes de test. En effet, nous avons fait appel à un critère génétique au sens de l’appartenance à la même famille linguistique pour le choix des langues de l’expérience et nous avons inclus dans le corpus uniquement des langues faisant partie de la famille des langues romanes. Le bilan dressé lors du premier chapitre de ce travail nous a permis de circonscrire les traits majeurs de ces langues et un type de classification qui pourrait reposer sur les particularités structurelles identifiées aux niveaux segmental et supra-segmental. Ainsi, nous espérons pouvoir comparer les indices discriminants obtenus par le biais de notre approche expérimentale avec les traits linguistiques qui ont permis la réalisation de la classification typologique mentionnée. Cette activité nous permettra d’envisager une possibilité d’exploitation des données descriptives sur les langues romanes dans le but de mieux comprendre leur traitement perceptif par les sujets naïfs réalisant une tâche expérimentale de discrimination linguistique.

Enfin, nous pensons a priori, que la communauté de traits due à l’origine commune des langues devrait complexifier la tâche expérimentale. Plus précisément, nous attendons que les auditeurs trouvent des indices discriminants suffisamment robustes, pour atténuer la similarité sonore entre les langues issues de la même parenté linguistique, susceptible d’augmenter le risque de confusion.

La construction du paradigme expérimental représente une tâche complexe dans la mesure où les approches en identification perceptive des langues manquent d’un modèle concernant le mécanisme cognitif mis en oeuvre par les auditeurs lorsqu’ils réalisent ce type d’activité.

En revanche, les chercheurs en neuropsychologie et en psychologie expérimentale font souvent appel à des modèles hiérarchiques détaillant les phases de traitement sous-jacentes à un processus cognitif lié à la compréhension de la parole (voir, par exemple, Caron, 1989). Ces modèles partent du niveau le plus bas, qui est celui du signal acoustique et, après avoir traversé plusieurs phases intermédiaires, arrivent au niveau cible, qui peut être celui lexical, morphologique, sémantique, etc. En outre, des modèles analogues sont construits par les chercheurs en reconnaissance ou en identification linguistique bien qu’ils aient une visée différente (Carré, Dégremont, Gross, Pierrel & Sabah, 1991). Leurs modèles sont destinés à représenter les étapes de traitement du signal acoustique qui pourraient être mises en place par un système automatique afin d’aboutir à une décision adéquate. Cependant, à notre connaissance, aucun modèle ne fait état du processus cognitif développé par l’être humain qui se prête spécifiquement à une tâche d’identification des langues.

Par conséquent, les paradigmes expérimentaux utilisés à ce jour en identification perceptive des langues ne font généralement qu’adapter les protocoles employés en identification automatique pour les rendre accessibles aux humains. Ainsi, le paradigme le plus répandu est celui de catégorisation des langues. Il consiste en la présentation d’une suite d’extraits sonores que les auditeurs doivent identifier en termes de langue d’origine. Par la suite, le traitement statistique généralement appliqué consiste en l’analyse des pourcentages de réussite qui montrent quelles langues sont plus faciles à identifier que d’autres.

Toutefois, deux autres types de protocoles ont été utilisés pour l’identification perceptive des langues. Le premier type est celui développé par Ramus (1999a) qui définit cette tâche comme du type ’ détection d’intrus’. Elle consiste en la présentation de stimuli de type AAX où AA représente le contexte et X peut être A ou B. Dans le cas des expériences développées par Ramus, il s’agit de reconnaître une langue grâce à des informations prosodiques. Les stimuli présentés sont des échantillons en parole modifiée où seulement des informations supra-segmentales sont préservées. Ainsi, l’effort de mémoire que les sujets doivent faire afin d’associer chaque stimulus à une langue, par ailleurs peu connue, est très important et les résultats seraient médiocres si l’on faisait appel à une tâche de catégorisation des langues. Par conséquent, la tâche de détection d’intrus est particulièrement utile quand les stimuli sont en parole artificielle, car elle ne demande aux sujets qu’une comparaison immédiate des extraits qui est moins coûteuse en termes de mémoire et d’attention.

Le second type de tâche est celui développé par Stockmal, Muljani & Bond (1996) et Stockmal & Bond (1999). Il consiste en la présentation d’une série de stimuli de type AB, où A=B ou A≠B. On demande aux sujets de prendre une décision par rapport à l’identité ou à la différence des langues d’extraction des stimuli. Dans la première étude cette comparaison prend en compte plusieurs langues appartenant à des diverses familles linguistiques, tandis que dans la seconde une langue cible, le coréen, est comparée à d’autres langues qui présentent le même type rythmique ou qui appartiennent à la même zone géographique que la langue cible. Il faut néanmoins signaler que les auteurs ne motivent pas le choix de ce type de paradigme expérimental. De notre point de vue, ce type de tâche représente une adaptation appropriée de la tâche de détection d’intrus à une activité expérimentale utilisant des stimuli en parole naturelle. Ainsi, cette tâche demande aux sujets de comparer des échantillons sonores en parole naturelle qui sont a priori porteurs de suffisamment d’information linguistique caractéristique d’une ou de deux langues pour permettre aux sujets de prendre une décision sans beaucoup de difficulté. Nous appellerions plutôt cette tâche une tâche de type discrimination que de type identification, puisqu’elle repose sur l’évaluation de deux signaux présentés en paire et non pas sur la comparaison entre un stimulus donné et les modèles linguistiques potentiels que les sujets ont dû construire pour chaque langue de l’expérience.

Nous avons choisi la tâche de type discrimination pour les raisons suivantes. L’identification suppose un jugement unitaire et de type exclusif : étant donné un nombre connu de candidats, le sujet auditeur sélectionne un et un seul candidat comme approprié. De cette manière, il cible son intérêt sur les particularités d’un seul exemplaire du groupe (i.e., une langue) qu’il doit nommer, une fois l’identification opérée. Durant la tâche de discrimination, on ne demande pas au sujet de nommer un candidat, mais de décider si deux candidats présentés simultanément sont issus ou non d’un seul exemplaire du groupe de test (i.e., si les deux candidats sont issus d’une seule langue ou de deux langues différentes). Il doit, par conséquent, effectuer une tâche de comparaison et de repérage de traits [+ commun] et [+ différent] respectivement et d’évaluation des poids respectifs des éléments appartenant à ces deux catégories de traits. Par la suite, l’auditeur tâchera de prendre une décision conséquente : ’même langue’ (si [+ commun]>[+ différent]) ou ’langues différentes’ (si [+ commun]<[+ différent]). Notons toutefois que la pondération peut s’avérer une activité complexe, consistant soit en l’évaluation du poids total des éléments appartenant aux deux catégories, soit en la décision en fonction d’un élément ou de plusieurs éléments qui soient fortement discriminants26.

Ainsi, la démarche cognitive dans la tâche de discrimination est a priori plus complexe que celle d’identification, car elle suppose non seulement l’identification d’un trait dominant spécifique, mais également la catégorisation et l’évaluation simultanée des traits. Nous nous attendons à ce que les traits catégorisés comme [+ différent] soient d’autant plus robustes que les traits de type [+ commun] sont prépondérants entre les langues romanes à cause de leur origine commune.

Enfin, nous espérons que les résultats de cette expérience nous permettront d’avancer dans la construction d’un modèle perceptif faisant état des phases de traitement cognitif accomplies par un auditeur afin d’identifier une langue étrangère. Nous consacrerons à cet aspect le dernier chapitre de notre travail.

Nous avons fait appel à plusieurs populations de sujets afin de pallier les manques des approches précédentes. Nous avons également complété notre étude par des comparaisons statistiques entre les différentes populations. Nous espérons ainsi que la variation du facteur ’population’ nous permettra de mieux décrire non seulement les critères linguistiques, mais aussi ceux de type non-linguistique, susceptibles de jouer un rôle dans la discrimination. Dans le choix des populations, nous avons tenu compte de la langue maternelle des sujets. Les 80 sujets participants sont donc divisés en quatre groupes, les deux premiers ressemblent des sujets natifs de l’une des langues de test (Français et Roumains), et les deux derniers, ceux des sujets dont la langue maternelle est autre que les langues de test (Japonais, Américains). Ainsi, nous avons choisi d’un côté les auditeurs dont l’environnement et les connaissances linguistiques présentent un degré de proximité privilégié avec les langues néo-latines, mais aussi de l’autre côté des auditeurs dont la distance par rapport à ces idiomes est beaucoup plus importante. De ce fait, nous allons pouvoir délimiter aussi bien l’influence des langues maternelles que le rôle de l’apprentissage préalable dans la construction des stratégies perceptives. Finalement, nous avons aussi veillé à ce que les deux dernières populations parlent des langues maternelles appartenant à des familles linguistiques très éloignées et, par conséquent, présentant peu de caractéristiques communes (i.e., altaïque et germanique, respectivement).

L’expérience a consisté en trois phases : l’apprentissage, le test et l’évaluation (optionnelle) des indices discriminants repérés par les sujets mêmes. Une stratégie expérimentale complémentaire a été effectuée auprès de la population américaine et elle sera décrite dans la section consacrée à cette population.

Une base de données acoustiques a été élaborée par l’enregistrement de 4 locuteurs pour chacune des langues (deux hommes et deux femmes). Elle a été obtenue à partir d’un livre d’images sans texte dont les locuteurs ont décrit spontanément la trame narrative (Mayer, 1969). À ces données principales, nous avons ajouté pour les besoins du test, un corpus supplémentaire issu de la base de données EuRom4 (1997), conçue pour l’apprentissage des langues romanes et consistant dans la lecture de journaux. Enfin, à cela nous avons rajouté un troisième corpus, obtenu par l’enregistrement d’une histoire personnelle que le sujet fournissait en réponse à la question suivante : ’Comment avez-vous passé votre dernier week end ?’.

Tous les enregistrements ont été digitalisés à 22kHz, 16 bits, en monophonique sous SoundForge©. A partir de ces enregistrements, 10 échantillons de 10 secondes chacun ont été extraits pour être utilisés lors de la phase d’entraînement, et 100 échantillons de 6 secondes chacun ont été utilisés dans la phase de test. 50 stimuli ont été finalement obtenus par la combinaison des 100 échantillons deux par deux, sans répétition.

L’entraînement a permis aux sujets de se familiariser avec les langues romanes. Il a consisté en l’écoute de deux extraits de 10 secondes dans chaque langue, présentés en ordre aléatoire. Durant le test proprement dit, les sujets devaient prendre une décision de type ’même langue/langues différentes’ pour chaque item. Les 50 stimuli proposés, de 12 secondes en moyenne (i.e., 2 x 6 secondes par échantillon), étaient de type XY : chaque item X était séparé du second item Y par un court son de type ’cloche’. Les sujets disposaient de 2 secondes après chaque séquence XY pour répondre si X et Y provenaient de la même langue ou de langues différentes. Nous allons nommer désormais les stimuli ou X=Y (i.e., de type ’même langue’) des stimuli de type AA et les stimuli ou X≠Y des stimuli AB (i.e., de type ’langues différentes’).

Les extraits ont été présentés une seule fois et chaque combinaison Li-Lj, où {i,j}∈[1,...,5]2 a été présentée deux fois. Par conséquent, chaque stimulus du type ’même langue’ a été présenté deux fois et chaque stimulus du type ’langues différentes’ a été présenté quatre fois, deux fois dans le sens AB et deux fois dans le sens BA.

Enfin, lors de la dernière étape de l’expérience, les sujets ont eu la possibilité de s’exprimer librement sur la nature des indices qui les ont aidés à discriminer les langues. Toujours est-il qu’en raison de la condition hétérogène de cette phase finale du test – surtout entre les deux populations de contrôle, américaine et japonaise – les informations relevant du questionnaire mentionné sont à considérer avec prudence.

Notes
26.

Cette dernière interprétation nous est suggérée par les travaux de Hombert & Maddieson (1998) concernant le rôle potentiel des segments rares dans l’identification perceptive des langues.