5.2 identification perceptive des langues romanes

Nous avons consacré une première partie de notre thèse à la revue des principales questions concernant l’histoire, les classifications et surtout les particularités segmentales et supra-segmentales des langues romanes. Nous avons montré que la compréhension des indices de classification des langues romanes peut être utile dans la perspective de l’identification automatique. Ainsi, nous avons signalé l’existence de quatre classifications principales. Nous avons montré que trois des quatre classifications (i.e., historique, géographique, historico-synchronique et typologique) sont peu pertinentes pour l’objectif de fournir une contribution linguistique à l’identification automatique des langues romanes, étant donné qu’elles reposent sur des critères non-linguistiques ou issus de la linguistique historique. De ce fait, nous nous sommes intéressés plus particulièrement à la classification typologique.

La classification typologique permet de regrouper les langues de la famille romane selon des critères linguistiques. Nous avons plus particulièrement pris en compte la classification typologique fondée sur des particularités segmentales et supra-segmentales, car il s’agissait des niveaux linguistiques auxquelles accèdent a priori les auditeurs dans une tâche de discrimination. Dans ce travail, nous avons pu constater que les indices vocaliques représentent le critère typologique relevant des niveaux segmental et/ou supra-segmental le plus pertinent, car il permet de diviser les langues romanes dans deux groupes distincts.

Nous avons poursuivi cette analyse avec un bilan des particularités des langues romanes relevant des deux niveaux linguistiques ci-dessus mentionnés. En effet, la composante vocalique met en évidence des distinctions claires entre les langues à vocalisme prototypique (espagnol et italien) vs. les langues ayant développé des oppositions supplémentaires (roumain, portugais et français). Ainsi, l’espagnol est une langue qui possède uniquement cinq voyelles et l’italien a une structure presque similaire (à cause de l’opposition d’aperture pour les voyelles moyennes qui semble être en voie d’affaiblissement). En revanche, le roumain, le français et le portugais possèdent un système vocalique beaucoup plus riche. Concernant la composante consonantique, elle permet d’établir un équilibre du point de vue de la complexité générale des systèmes. Ainsi, les langues à système vocalique simple sont celles qui multiplient leurs distinctions consonantiques. C’est par exemple le cas de l’espagnol, langue pour laquelle les consonnes sont plus nombreuses que pour toute autre langue romane. En revanche, le français équilibre sa richesse vocalique par un système consonantique très simple. Entre ces deux extrêmes (espagnol et français), les systèmes des trois autres langues romanes (italien, roumain et portugais) représentent des états intermédiaires. Aussi, est-il plus difficile de dresser une typologie sur la base des particularités consonantiques. Nous pouvons tout au plus parler d’un continuum de complexité qui va de l’espagnol au français.

En conclusion, la complexité des systèmes vocaliques nous a semblé un critère fiable de classification des langues romanes. Ce critère principal peut être complété par les informations liées aux spécificités des systèmes consonantiques ou à celles supra-segmentales. Nous reprenons dans la figure suivante la principale division des langues romanes selon leurs spécificités vocaliques, telle qu’elle a été proposée dans le premier chapitre de ce travail.

message URL FIG49.gif
Figure 49 : Classification typologique des langues romanes d’après la complexité des systèmes vocaliques.

La seconde partie de notre travail a été consacrée au bilan des travaux en identification automatique et perceptive des langues. Nous avons accordé une attention particulière aux corpus et aux approches qui traitent des langues romanes et nous avons constaté que cette famille linguistique a bénéficié de peu d’attention des chercheurs des deux domaines cités. Par ailleurs, le bilan effectué suggère que le comportement perceptif humain est une source d’inspiration potentielle pour les chercheurs en identification automatique des langues. Enfin, il apparaît qu’une meilleure compréhension des stratégies perceptives et des indices discriminants employés par les humains pourrait contribuer à l’amélioration des performances actuelles des systèmes automatiques. Nous nous sommes donc intéressés aux axes de recherche dédiés à ce dernier objectif.

Les quatre axes suivants ont été identifiés dans les travaux cités. Un premier axe a un caractère général et concerne l’évaluation expérimentale des capacités globales de reconnaissance et/ou de différenciation linguistique. Il met en valeur la robustesse du traitement linguistique effectué par le système perceptif humain, qu’il s’agisse de la réussite globale, des stratégies employées ou de la résistance aux conditions défavorables (i.e., bruit). Le second axe concerne l’étude des performances et des critères mis en oeuvre par les auditeurs pour discriminer un certain nombre de langues inconnues. Aussi, a-t-il été possible de mettre en évidence que l’être humain est capable d’émettre un jugement sur une langue inconnue au bout de quelques secondes de parole ; que non seulement les adultes, mais aussi les enfants sont capables d’identifier des langues complètement inconnues après un court apprentissage, et que, de plus, ils sont partiellement capables de décrire les indices linguistiques dont ils se sont servis pour accomplir cette tâche. Le troisième axe porte sur la recherche de stratégies perceptives reposant sur les indices liés au niveau segmental. Cependant, peu d’études s’y intéressent. La conclusion essentielle des trois études que nous discutons concerne la suprématie de la composante vocalique dans les stratégies perceptives des sujets. Néanmoins, cette conclusion devrait être confirmée par des recherches supplémentaires, étant donné que les études recensées concernent la reconnaissance de parole et l’identification dialectale, respectivement. Enfin, le quatrième axe concerne l’identification linguistique avec des corpus en parole modifiée où uniquement certaines composantes prosodiques sont préservées. Cet axe de recherche permet de noter l’importance des informations supra-segmentales qui se montrent particulièrement robustes lors de l’identification des langues, qu’il s’agisse des auditeurs adultes, des nourrissons ou même des singes. Ce type de recherche est celui qui est le mieux représenté dans les études consacrées à l’identification perceptive des langues.

Les volets de recherche décrits dans cette deuxième partie nous ont conduit à l’hypothèse que l’étude des stratégies perceptives chez les êtres humains, utilisées pour des tâches expérimentales d’identification linguistique, est particulièrement importante pour comprendre la manière dont une langue étrangère est traitée pour être identifiée. Cependant, la problématique que nous avons décrite est loin d’avoir atteint ses objectifs. Au contraire, cette recherche semble encore hétéroclite et soumise à une forte variabilité méthodologique. Cette variabilité obscurcit la comparaison des résultats, d’une part, en termes de hiérarchie des stratégies perceptives humaines et de l’autre, en termes de hiérarchie des indices linguistiques les plus robustes. Afin de pallier certains des manques identifiés dans les démarches précédentes, nous avons mis en place deux protocoles expérimentaux.

Le premier protocole expérimental décrit dans le Chapitre 3 a été de type discrimination. Nous avons tenté de circonscrire au moyen d’une expérience perceptive effectuée auprès de quatre groupes de sujets, les types de stratégies de discrimination employées par les sujets pour différencier les cinq langues romanes. Les quatre populations, dont deux de type [+ langue maternelle romane] (Français et Roumains) et deux de type [- langue maternelle romane] (Japonais et Américains) ont effectué une tâche expérimentale consistant en la discrimination de deux signaux de parole présentés en paire. Deux types de solutions étaient possibles. Les sujets pouvaient discriminer une paire de langues soit comme issue d’une même langue, soit comme appartenant à deux langues différentes. L’analyse des taux de réponses correctes permet d’établir une hiérarchie des stratégies perceptives employées par les sujets.

La principale stratégie discriminante est liée à la langue maternelle des sujets. Ainsi, le comportement des Français et des Roumains est différent de celui qui caractérise les deux autres populations. Les sujets de langue maternelle romane effectuent une première distinction des langues à identifier, en isolant leurs langues maternelles qui ne sont confondues avec aucune autre langue romane.

La seconde stratégie concerne la familiarité antérieure avec les langues utilisées dans le test. Ainsi, avant de procéder à l’identification de chaque langue de la famille, les sujets opèrent une division entre d’une part, les langues plutôt connues et de l’autre,, les langues très peu familières. Cette stratégie est caractéristique de toutes les populations de sujets.

La troisième stratégie est la plus importante pour nous, car elle concerne les traits discriminants de nature proprement linguistique. Les stratégies linguistiques sont caractéristiques des populations qui ont bénéficié d’une exposition préalable modérée aux langues romanes. En effet, lorsque la familiarité ne permet plus aux sujets de catégoriser les langues, ces derniers tentent de trouver des nouvelles informations dans les spécificités acoustiques des stimuli. Ainsi, si la familiarité permet aux auditeurs d’accéder à des niveaux linguistiques supérieurs au niveau phonémique (par exemple, les sujets français, qui sont familiers avec l’italien, ont reconnu des mots de cette langue, grâce à leurs terminaisons), l’absence de connaissances antérieures sur une langue les amène à mieux écouter les stimuli afin de trouver des indices discriminants issus des niveaux segmental et supra-segmental. Dans la tâche de discrimination, les stratégies proprement linguistiques caractérisent plus particulièrement les populations japonaise et américaine. Cependant, elles sont également employées par les sujets français et roumains, afin de combler les informations manquantes. De plus, dans le cas de ces deux dernières populations, lorsque les indices acoustiques sont très saillants, les stratégies linguistiques l’emportent sur celles non-linguistiques. Nous expliquons ainsi les confusions que les sujets français ont faites entre l’espagnol et l’italien qui sont pourtant deux langues familières.

Enfin, la mise en oeuvre de stratégies de discrimination de nature proprement linguistique équivaut à un jugement implicite sur la similarité sonore des langues. Cette conclusion nous est suggérée par le résultat obtenu à la fin de ce troisième chapitre qui consiste dans une macro-discrimination des langues romanes en deux classes principales : italien, espagnol vs. roumain, français, portugais.

Le second protocole expérimental décrit dans le Chapitre 4 a été de type jugement de similarité. Il a été mis en place pour répondre à deux questions. La première question concerne la possibilité de rendre explicite le jugement de similarité implicite obtenu avec l’expérience de discrimination, pour mieux comprendre la nature de la tâche de catégorisation effectuée par les quatre populations de sujets. Nous avons donc demandé au sujets non pas de discriminer les langues romanes, mais de juger leurs ressemblances sonores sur une échelle de similarité. La seconde question concerne la généralité de la macro-division des langues romanes que nous avons obtenue avec l’expérience de discrimination. À cette fin, deux populations de sujets (française et américaine) ont été sollicitées.

Cette nouvelle expérience a consisté en l’évaluation du degré de proximité sonore de paires de signaux extraits des cinq langues romanes, sur une échelle de similarité de 1 à 5. Les stimuli ont été les mêmes que ceux utilisés dans l’expérience de discrimination, pour pouvoir comparer les résultats. Les deux groupes de sujets mentionnés ont été à nouveau sélectionnés en fonction du critère [+/- langue maternelle romane] (i.e., Français vs. Américains). Ce choix nous a permis de tester s’il existe une différence entre les réactions des sujets en fonction de leur environnement linguistique (i.e., langue maternelle et familiarité avec les langues romanes) et de comparer ces résultats avec les résultats des populations française et américaine ayant effectué la tâche de discrimination.

Les résultats ont confirmé nos attentes. En effet, il semble que les confusions opérées involontairement lors de l’expérience de discrimination provenaient surtout des effets de similarité sonore dus à la parenté des idiomes. La tâche de jugement de similarité a donc permis chez les sujets français de faire ressortir la proximité entre, d’une part, l’espagnol et l’italien, et de l’autre, le roumain et le portugais. Cette expérience a également montré chez les sujets américains que les confusions faites entre l’espagnol et l’italien par le groupe anglophone qui a effectué la tâche de discrimination (expérience précédente) sont le résultat du partage de traits linguistiques par les deux idiomes. Le test a révélé aussi que pour les Américains, le portugais est très proche du français, ce qui dans la tâche de discrimination était dissimulé par les confusions entre le roumain et le portugais, dues à la méconnaissance des deux langues.

Enfin, le regroupement explicite des langues obtenu avec l’expérience de jugement de similarité effectuée par les deux populations de sujets est le suivant : espagnol et italien vs. roumain, portugais et français. Nous pouvons donc conclure tout d’abord que les deux tâches expérimentales, de discrimination et de jugement de similarité, mènent à un résultat comparable qui repose sur les spécificités acoustiques des cinq langues romanes testées. Ensuite, le regroupement obtenu est indépendant des acquis linguistiques antérieurs des différentes populations de sujets. Enfin, étant donné que ce regroupement est comparable à celui fourni par la classification typologique basée sur les particularités vocaliques des langues romanes (voir Chapitre 1), nous avançons l’hypothèse que les stratégies perceptives mises en oeuvre par les auditeurs ont été liées plus particulièrement à l’information segmentale de nature vocalique.

En conclusion, la principale observation que ces résultats nous permettent de formuler concerne le fait que l’identification des indices perceptifs discriminants des langues représente une alternative aux approches antérieures pour la recherche en identification automatique des langues. Cependant, les indices discriminants sont à la fois difficiles à isoler et complexes, puisque les auditeurs possèdent la capacité d’exploiter plusieurs types de stratégies de discrimination en même temps. Parmi ces stratégies, celles de nature linguistique sont mises en oeuvre lorsque les stratégies non-linguistiques (i.e., langue maternelle et familiarité) sont insuffisantes. Ainsi, décrire la nature exacte des indices linguistiques qui sont responsables du résultat obtenu s’avère une tâche complexe. Par conséquent, avant d’effectuer d’autres études plus approfondies pour mieux décrire ces indices discriminants, il nous semble utile de comprendre l’activité cognitive que les auditeurs mettent en oeuvre durant l’expérience perceptive d’identification linguistique. Nous proposons donc un modèle d’identification perceptive des langues dans le paragraphe suivant. Nous complétons également ce modèle par un second correspondant à la tâche discriminante que les sujets ont effectuée dans la première partie expérimentale de cette thèse.