L’isochronie : phénomène perceptuel ?

Certains chercheurs, comme Allen (1975) considèrent que l'oreille humaine a tendance à percevoir des séquences d'intervalle de temps comme plus égaux qu'ils ne le sont réellement. Les intervalles longs sont sous-estimés et les intervalles courts sont surestimés, d’où une tendance à l'isochronie. En général, les partisans de l’idée que l’isochronie est principalement un phénomène perceptuel (c.f. Lehiste, 1977 ; Couper-Kuhlen, 1990, 1993), justifient leur position par le fait que les différences de durées mesurées entre les accents ou les syllabes sont bien au-dessous du seuil de la perception : « ‘ if listeners cannot identify the actually longest or shortest measures in spoken English sentences, the measures must seem to them to have equal duration; if you cannot tell them apart they must be alike. Isochrony would then be a perceptual phenomenon ». ’(Lehiste, 1977, p.256). D’autres, comme Beckman (1992) et Laver (1994), ont considéré la régularité physique de l'isochronie plutôt comme une tendance en soulignant le fait que la réalisation d’unités ‘isochroniques’ serait perturbée par les caractéristiques phonétiques, phonologiques et grammaticales de la langue.

Nous pensons que l’étude du rythme en tant que phénomène perceptuel a indirectement été suggéré par Abercrombie (1976) dans son hypothèse de l’isochronie : ‘ « the phonetician needs empathy with the speaker to apprehend speech rhythm, ( ) it is necessary to learn to listen differently in order to be able to analyse speech rhythm, whether of one's mother tongue or another language, and to describe it in general terms ’. » (p.98). Cela suggère que la distinction entre les langues accentuelles et syllabiques peut entièrement reposer sur des capacités perceptuelles acquises par l’expérience.

En psycholinguistique, les premières expériences sont réalisées dans le domaine de l’acquisition du langage. Mehler et Nazzi (1999) ont réalisé une étude perceptuelle qui rend compte des capacités de discrimination des langues chez les nouveau-nés provenant d’un environnement multilingue. L’anglais et le japonais sont reconnus et discriminés à travers des phrases où les informations préservées concernent tour à tour : (i) le niveau phonotactique ; (ii) le rythme et l’intonation ; (iii) l’intonation seule ; (iv) le rythme seul. Ces expériences perceptuelles menées auprès de nouveau-nés en utilisant la méthode de succion de haute amplitude ³² , ont confirmé la pertinence perceptuelle des différentes classes rythmiques. Les résultats ont révélé que les bébés réagissent de façon plus sensible lorsqu’ils écoutent successivement deux stimuli issus de deux classes rythmiques différentes, que lorsqu’ils écoutent deux stimuli qui appartiennent à la même classe rythmique.

D’autres expériences ont été réalisées pour tester la capacité des adultes à distinguer différentes langues en se basant sur leurs structures rythmiques. Benguerel (1999) a présenté des stimuli ³³ de 20 langues à des groupes de sujets classés selon leur langue maternelle anglaise, arabe (irakien de Bagdad), française, ou japonaise et ayant tous étudiés la phonétique. La tâche des sujets était de classer chaque langue dans l'une des trois catégories de rythme : (1) accentuelle, (2) syllabique, ou (3) moraïque. Les échantillons avaient été préalablement soumis à une inversion spectrale, afin d'empêcher les auditeurs d'identifier la langue présentée. Les résultats indiquent que pour les auditeurs de même langue et de langues maternelles différentes, il existe un accord au sujet du rythme de certaines langues (par exemple, ils identifient correctement l'anglais, l'espagnol et le japonais). Pour d'autres langues par contre, il y a moins de consensus entre groupes et parfois même à l'intérieur d'un groupe donné.

Dans une autre expérience perceptuelle, Ben Abda (2004) a utilisé un texte de 10 phrases traduites dans trois langues (arabe tunisien, français et anglais). Ces phrases ont été spectralement inversées à l’aide de l’utilitaire ‘spectral inversion de PRAAT’. Les stimuli ont été présentés aux sujets afin d'essayer de voir s’ils pouvaient distinguer l’anglais du français et de l’arabe tunisien. Les phrases arabes ne contenaient pas de consonnes postérieures typiques de l’arabe, comme les uvulaires et les pharyngales. Elles avaient été écartées du corpus pour éviter l’identification de cette langue à partir de ses unités segmentales. Avec la parole inversée, les sujets ne perçoivent que la structure syllabique et l'information supra-segmentale. Les résultats montrent que le français est clairement distingué de l'arabe et de l’anglais, mais l’anglais et l'arabe sont souvent confondus (identification correcte dans 53% des cas, inférieur au hasard).

Tajima et al. (1999) ont utilisé le ‘speech cycling tasks’ ³⁴ pour comparer l'anglais, l’arabe jordanien et le japonais. Ils ont confirmé que l'arabe et l'anglais ont des modèles rythmiques semblables lesquels sont différents du japonais (langue mora-timed). Les auteurs consluent que : ‘ “Arabic and English speakers seem to pay close attention to the stressed syllables, producing them at simple harmonic phases ’” (p 288). De même, en comparant l’anglais à l’arabe, ils notent : « ‘ stressed syllables within a phrase are deviated from a strictly isochronous sequence to a greater extent in Arabic than in English ». ’Ces remarques semblent être en conformité avec la théorie traditionnelle qui regroupe l’anglais et l’arabe dans la même catégorie rythmique des langues accentuelles.

Notes

32.

La méthode de succions de haute amplitude permet de tester si des bébés âgés de 0 à 2 mois peuvent discriminer deux catégories de stimuli (syllabe, mot, phrases). Elle consiste à évaluer la réaction de l'enfant au changement de catégorie. L'activité de l'enfant est mesurée à travers ses succions sur une tétine fermée, dont on mesure la pression interne (pour le détail de cette méthode voir Ramus, p.181).

33.

Les stimuli utilisés sont extrats du texte " The north wind and the sun " (The Handbook of the International Phonetic Association, 1999) traduit dans vingt langues et produite par 20 locuteurs. Une fois enregistré, chaque échantillon a été filtré (bande passante de 0,2 à 4 kHz, 48 dB/octave) et inversé autour de 2, 1 kHz. Le spectrogramme de la parole inversé est à l'image de la parole originale, donc les indices temporels (notamment les frontières des segments) ne changent pas. Le mode d'articulation est préservée, mais le lieu d'articulation est modifié du fait de la transformation de la fréquence. Les lieux d'articulation des segments d'origine ne peuvent donc pas être identifiés et la langue ne peut pas être reconnue même par les locuteurs natifs. Les informations prosodiques acoustiques sont en grande partie préservées dans la parole inversée notamment le F0 et le pitch ainsi que l'intensité.

34.

Le ‘Speech cycling tasks’ est une méthode développée par Tajima (1997). Elle consiste à répéter un énoncé court comme ‘talk about the game’. On constate alors qu’au cours de la répétition, les locuteurs calent le premier mot comme la pulsation d’un métronome.