1.1.1. Phonème ou syllabe ?

Le phonème a tout d’abord été postulé comme unité fonctionnelle dans la mesure où l’inventaire des phonèmes d’une langue est facilement identifiable et restreint pour permettre des procédures d’analyse et d’appariement avec les représentations du lexique mental segment par segment. Cependant, en dépit du caractère séquentiel avec lequel les sons de la langue se présentent dans le discours, les phonèmes ne sont pas des unités isolées et la chaîne parlée se présente comme un continuum à l’intérieur duquel les sons interagissent, en raison du phénomène de co-articulation de la langue. Cela signifie que lorsque nous produisons un phonème, le conduit vocal se prépare déjà à prononcer le phonème suivant. Par exemple, lorsque nous prononçons la syllabe /ti/, les lèvres sont déjà étirées avant même que le son /t/ ait été émis. Par contre pour la syllabe /tu/ les lèvres sont avancées et arrondies. Le son /t/ n’est pas le même dans ces deux syllabes, pourtant il s’agit du même son /t/. Ce phénomène rend compte d’un fait particulièrement fréquent en français, l’assimilation sur l’opposition de voisement. Lorsque qu’une consonne sourde est suivie d’une consonne sonore, la première est assimilée à la seconde quant au trait de sonorité, ce qui donne lieu à la perception de /metsẽ/ pour « médecin », de /apsã/ pour « absent » par exemple. Pour cette raison, entre autres, le phonème n’est pas considéré comme l’unité de base pour la perception de la parole. Par ailleurs, les phénomènes de coarticulation sont plus faibles au sein d’une même syllabe qu’entre des syllabes différentes (Liberman, Cooper, Shankweiler, & Studdert-Kennedy, 1967).

La syllabe, en revanche, a été présentée comme unité de base pour la perception de la parole dès 1974, dans les premiers travaux de Massaro. L’argument principal de Massaro est que les phonèmes sont produits à une vitesse de dix à vingt par seconde. Or, selon son hypothèse, il n’existerait pas de module de traitement spécifique pour la parole, ce qui entraîne que notre système perceptif ne peut traiter des stimuli aussi rapides dans leur flux. La taille d’une séquence pouvant être traitée serait de sept à neuf sons au maximum, ce qui rend envisageable la syllabe comme unité fonctionnelle de traitement, eu égard aux capacités de traitement de l’information par le système. Même si l’inventaire des syllabes possibles d’une langue est plus large que celui des phonèmes, celles-ci présentent l’avantage de pouvoir être reconnues plus facilement dans le signal de parole. De plus, la notion de phonème ne semble accessible à la conscience qu’avec l’apprentissage de la lecture (Morais et al. 1979).

Dans le domaine de la perception auditive de la parole, le primat de la syllabe comme unité de traitement du langage parlé a été soutenu par Mehler et al. dès 1981 pour le français, voire dans une position plus extrême comme l’unité perceptive servant d’interface entre le signal de parole et le lexique mental. Cette étude a orienté la suite des recherches en psycholinguistique sur la pertinence de la syllabe en tant qu’unité fonctionnelle de traitement du langage. La tâche conçue par Mehler et al. (1981) est une tâche de détection de cible. Les sujets devaient détecter le plus rapidement possible des cibles de deux ou trois lettres correspondant au début d’un mot. La particularité de cette tâche est que les cibles pouvaient être compatibles ou non avec la segmentation syllabique de ces mots. Par exemple « ba » pour « balance » ou « ba » pour « balcon » et pareillement pour la cible « bal ». Les résultats ont montré que le temps de détection était plus court pour les cibles correspondant à la première syllabe du mot porteur que pour les cibles qui ne correspondaient pas à la première syllabe. Ainsi, les sujetsdétectaient plus rapidement la cible « bal » dans « balcon » que dans « balance » et c’est l’inverse lorsqu’il s’agit de détecter « ba ». Les auteurs ont appelé cet effet « l’effet syllabique ». Segui, Frauenfelder, et Mehler (1981), ont confirmé l’hypothèse de la syllabe comme unité de segmentation en montrant que détecter le phonème initial d’un item prend plus de temps que détecter la syllabe initiale de cet item, qu’il s’agisse d’un mot comme d’un pseudomot, et que le temps de détection dépendait également de la complexité de la syllabe (voir aussi Savin & Bever, 1970 ; Segui, 1984). Un auditeur mettra ainsi moins de temps à détecter le phonème /b/ dans la syllabe « ba » que dans les syllabes « bra » ou « bal ». Ce serait donc à partir de la syllabe que l’analyse des phonèmes se produirait. Mehler et al. ont en fait proposé que la syllabe soit l’unité perceptive universelle de traitement pour le langage oral, unité à partir de laquelle s’opérerait le traitement phonémique de la syllabe, et ont considéré la syllabe comme « le Graal de la psycholinguistique » (Dupoux, 2004 a, p.43).

Utilisant un paradigme d’écoute dichotique, Kolinsky (1992) a mis en évidence un effet de la syllabe dans la perception de l’oral (voir aussi, Kolinsky, & Morais, 1993 ; Kolinsky, Morais, & Cluytens, 1995) conformément aux hypothèses de Mehler et al. (1981). Lorsque des participants entendaient simultanément des paires de pseudomots comme « cojou » et « biton », cette présentation donnait lieu à la perception du mot « bijou ». Par contre, la présentation de paires de pseudomots comme « kijou » et « boton » n’entraînait pas la perception du mot « bijou », mais des perceptions erronées se rapportant aux phonèmes. Les auteurs ont interprété cet effet en terme de migration phonologique, et ont avancé que cet effet intervenait grâce au rôle des représentations syllabiques dans la perception du langage parlé en français. Cependant, dans une étude de 1998, Kolinsky a remis en question l’hypothèse d’un accès au lexique par l’intermédiaire de la syllabe, en relevant un biais dans les patterns de réponse de Mehler et al.. Conformément à l’hypothèse de Mehler et al., une cible CV dans un mot porteur de type CVC devrait être détectée plus rapidement qu’une cible CVC dans un mot porteur de type CV. Or, les patterns de réponses de Mehler et al. n’allaient pas dans ce sens et présentaient une asymétrie au niveau de la condition non congruente, plus précisément, les cibles CV étaient détectées plus rapidement que les cibles CVC. Cette asymétrie laisserait à penser que l’effet syllabique mis en évidence par Mehler et al. n’était pas si clair qu’il paraissait.