2. État des recherches en perception de parole

2.1. Arguments expérimentaux

Beaucoup d’études psycholinguistiques se sont attachées à étudier le rôle de la syllabe dans la perception de la parole, essentiellement en tant qu’unité de segmentation (e.g., Cutler, McQueen, Norris & Somejuan, 2001 ; Seguí, 1997 ; Sendlmeier, 1995) mais aussi en tant qu’unité prélexicale de classification et d’accès au lexique mental (e.g., Kolinsky, Morais & Cluytens, 1995 ; Mehler, Dommergues, Frauenfelder & Seguí, 1981). L’une des études les plus célèbres dans le domaine de la perception de parole reste, aujourd’hui encore, celle de Mehler et al. (1981) dans une tâche de détection de phonèmes à l’initiale de mots. Des sujets francophones devaient décider si une cible, de structure CV ou CVC apparaissait à l’initiale d’un mot dont la structure syllabique initiale était congruente (e.g., BA dans BA.LADE ou BAL dans BAL.CON) ou incongruente (BAL dans BA.LADE ou BA dans BAL.CON). De même, chaque mot de structure initiale CV était apparié en fréquence avec son homologue CVC partageant les trois premiers phonèmes (e.g., BA.LADE et BAL.CON). Les résultats obtenus ont mis en évidence des temps de réponse plus rapides lorsque la structure syllabique de la cible était congruente avec la structure syllabique initiale des mots-porteurs que lorsqu’elle était incongruente. L’interaction croisée entre la structure de la cible et la structure syllabique initiale du mot-porteur a été appelée effet de compatibilité syllabique. Cet effet a permis aux auteurs de rendre compte de l’utilisation, par l’auditeur francophone, des syllabes comme unités perceptives prélexicales pour segmenter le flux de parole et accéder au lexique mental (voir aussi Mehler, Dupoux & Seguí, 1990 ; Seguí, Dupoux & Mehler, 1990).

À partir des travaux de Mehler et al. (1981), des recherches ultérieures ont continué d’investiguer le rôle de la syllabe en perception chez l’adulte, notamment par le biais de recherches inter-langues. Ainsi, les travaux de Cutler, Mehler, Norris et Seguí (1983 ; 1986) pour des comparaisons anglais-français ou ceux d’Otake, Hatano, Cutler et Mehler (1993) pour des comparaisons japonais- français se sont penchés sur les convergences et divergences de traitements syllabiques éventuels en s’inspirant du paradigme de Mehler et al. (1981). Dans les expériences de Cutler et al. (1983 ; 1986), il a été mis en évidence que seuls les auditeurs français utilisaient un code syllabique pour segmenter les mots, y compris lorsqu’ils entendaient des mots anglais alors que les auditeurs anglais faisaient plutôt appel à un code phonémique. À partir de ces résultats, les auteurs ont conclu que les stratégies de segmentation dépendraient des caractéristiques de la langue maternelle. De manière similaire, Cutler, Mehler, Norris et Seguí (1992) ont constaté en comparant des bilingues français -anglais que seuls les auditeurs à dominance francophone manifestaient des sensibilités à la segmentation syllabique. Que ce soit dans l’étude de Cutler et al. (1992) ou dans celle de Cutler, Mehler, Norris et Seguí (1989), toutes deux traitant du bilinguisme, les deux données importantes recueillies sont la prédominance d’un seul système phonologique dans la segmentation de la parole et l’inhibition de certaines caractéristiques de la langue minoritaire au profit d’habiletés propres à la langue dominante (e.g., sensibilité à l’accentuation, segmentation en unités syllabiques…).

L’une des caractéristiques linguistiques censées rendre le mieux compte des différences de segmentation repose sur le caractère non ambigu des frontières syllabiques en français ou en espagnol (cf. Chapitre 1, Partie 2.2.3.). Cette spécificité serait à l’origine de l’application d’une stratégie de segmentation syllabique. Les travaux de Sebastián-Gallés, Dupoux, Seguí et Mehler (1992) chez des auditeurs catalans et espagnols ont permis de montrer deux phénomènes circonstanciels : l’utilisation des syllabes par les Espagnols n’est effective que lorsque les délais de récupération de la représentation syllabique sont suffisants² alors que la segmentation syllabique chez les Catalans n’est observée que pour les mots dont la syllabe initiale est non accentuée. Paradoxalement, les bilingues espagnol-anglais de l’étude de Bradley, Sánchez-Casas et García-Albea (1993) n’appliquaient pas de segmentation syllabique aux mots anglais voire, dans le cas d’un bilinguisme tardif, n’employaient plus de stratégie syllabique sur les mots espagnols. En s’inspirant du même paradigme, des études menées en italien (Tabossi, Collina, Mazzeti & Zoppelo, 2000), en portugais (Morais, Content, Cary, Mehler & Seguí, 1989) et en néerlandais (i.e., langue dont les caractéristiques sont proches de l’anglais, avec une accentuation fixe mais aux frontières ambisyllabiques ou claires, Zwitserlood, Schriefers, Lahiri & Van Donselaar, 1993) sont également parvenues à mettre en évidence l’utilisation d’unités de taille syllabique dans les processus de segmentation de la parole.

En s’appuyant sur un paradigme expérimental d’induction attentionnelle, Pallier, Sebastián-Gallés, Felguera, Christophe et Mehler (1993) ont manipulé les attentes de locuteurs français et espagnols sur la position de phonèmes dans des mots et des non-mots. Les auditeurs étaient implicitement induits sur la position de phonèmes-cibles apparaissant en position fixe dans les items (i.e., en position de coda de la syllabe initiale dans des items CVC.CV ou en position d’attaque de la seconde syllabe dans des items CV.CCV). Les résultats dégagés ont montré que la détection des phonèmes-cibles par les auditeurs français aussi bien que par les auditeurs espagnols était facilitée lorsque la position induite était effectivement celle correspondante à un découpage syllabique correct plutôt qu’à un découpage syllabique incorrect (e.g., p dans cap.ture ou p dans ca.price). Sur la base du même paradigme, des travaux menés en anglais ont montré un robuste effet syllabique, conditionné par une frontière syllabique non ambiguë et par la présence de l’accentuation sur la seconde syllabe (e.g., Finney, Protopapas & Eimas, 1996 ; Pitt, Smith & Klein, 1998). Ces résultats sont compatibles avec les arguments théoriques de Cutler et Norris (1988) (cf. Chapitre 2, Partie 2.2.) qui défendent l’idée d’une segmentation déclenchée par les syllabes accentuées. Par ailleurs, ces résultats expliqueraient l’absence d’effets syllabiques dans les travaux de Cutler et al. (1986) ou de Bradley et al. (1993) dans lesquels les mots utilisés étaient accentués sur la syllabe initiale.

Dans une série d’expériences, notamment d’amorçage intra-modalité (auditif-auditif) en décision lexicale, Spinelli et Radeau (2004) ont cherché à savoir si la syllabe était l’unité d’accès au lexique.

En revanche, les amorces CVC n’activaient que les mots CVC. Les amorces CV laisseraient la possibilité d’intégrer de nouveaux phonèmes pour constituer une autre syllabe. Selon les auteurs, le fait que les amorces CVC n’activaient que les mots CVC signifierait qu’une fois la récupération d’une syllabe fermée effectuée, aucun retour en arrière ne serait possible pour décaler la frontière syllabique en structure CV. Les informations syllabiques ne contraindraient la cohorte initiale de candidats lexicaux que lorsque les informations sur la fin des syllabes sont sûres. Comme le soulignent les auteurs, ces résultats témoignent d’un traitement séquentiel des informations auditives, mais uniquement pour les mots prononcés isolément³.

Ainsi, les amorces CV laisseraient potentiellement toutes les candidats lexicaux actifs. En effet, les amorces CVC sont suffisantes, car elles ne peuvent plus accepter de phonèmes (i.e., selon l’inventaire de Goldman, Content & Frauenfelder (1996), il n’existe pas de syllabes CVCC en français dans les mots plurisyllabiques). Par ailleurs, la prédominance des structures CV par rapport aux structures CVC expliquerait ces résultats, car le nombre de compétiteurs lexicaux est plus restreint pour les structures CVC (cette interprétation est conforme avec les données de Dufour, Peereman, Pallier & Radeau (2002) ; en effet, catégoriser la syllabe initiale permet une réduction de la cohorte possible de candidats lexicaux de 57% avec les structures syllabiques CVC contre 29% pour les structures syllabiques CV). Enfin, l’hypothèse d’une plus grande similarité acoustique entre une amorce CVC et un mot CVC plutôt qu’avec un mot CV reposerait sur le fait qu’il existe une plus grande coarticulation de la voyelle par le phonème postvocalique dans une structure CVC que dans une structure CV (cf. Chapitre 1, Partie 2.2.3.). La syllabe ne serait utilisée en perception auditive de mots que « lorsque cela permet d’éliminer un nombre significatif de candidats en compétition » (Spinelli & Radeau, 2004, p. 90).

L’une des critiques les plus retentissantes concernant le rôle de la syllabe en tant qu’unité prélexicale a été formulée par Content, Meunier, Kearns et Frauenfelder (2001a) en réexaminant les résultats de Mehler et al. (1981). Leur remise en question s’est appuyée sur le matériel utilisé.

Les résultats n’ont pas été conformes, mais ont mis en évidence une détection plus rapide des séquences CVC uniquement dans les pseudomots CVC mais pas pour les séquences CV dans les pseudomots CV. De plus, l’amélioration des temps de détection pour les séquences CVC n’apparaissait que lorsque la consonne postvocalique était une consonne sonore. L’une des explications avancées repose sur la prise en compte des caractéristiques acoustico-phonétiques de la consonne pivot qui aurait un décours temporel plus bref (i.e., de 27ms phonétiquement contre 54ms d’un point de vue perceptif ; Content & Frauenfelder, 2002) lors de sa réalisation dans un segment CVC.CV plutôt que CV.CVC (voir aussi Leclercq, Content & Frauenfelder, 2002). Le décours temporel des traits acoustico-phonétiques de la consonne pivot serait également dépendant du profil de sonorité du cluster (i.e., sonore-occlusif) (Dumay, Content & Frauenfelder, 2002a). Ces informations, déjà évoquées en néerlandais par Quéné (1992), agiraient comme indices relativement fiables pour la segmentation (e.g., Spinelli et al., 2003).

Notes

Une intervention plus précoce de la segmentation syllabique est aussi observée, mais serait soumise au fait que les voyelles en espagnol sont encore moins nombreuses qu’en français, donc plus facilement identifiables et donc plus transparentes au niveau acoustique.

Ce constat renvoie à la notion de point d’unicité développée avec le modèle Cohort (Marslen-Wilson & Welsh, 1978). Dans le signal sonore, l’apparition du premier phonème d’un mot va activer l’ensemble des mots commençant par ce phonème. Progressivement, l’accumulation séquentielle des phonèmes, allant de gauche à droite, va restreindre le nombre de candidats lexicaux jusqu’à ce qu’en un point donné, il n’y ait plus qu’un seul mot possible : il s’agit du point d’unicité.