1.1.4. Syllabe et phonologie autosegmentale

Toutefois, il semblerait possible que l’analyse du langage oral puisse s’opérer non pas sur la base de la syllabe phonologique mais plutôt sur la base d’une syllabe abstraite Floccia, Kolinsky, Dodane et Morais (2003), se fondant sur les critiques de Kolinsky (1998) remettant en question le paradigme utilisé par Mehler et al. (1981), ont proposé de réétudier l’effet syllabique, toujours sur une tâche de détection de fragment, mais sur la base d’un partage phonologique plus abstrait. Ces auteurs se sont en effet appuyés sur les conceptions récentes de la théorie linguistique autosegmentale. Les autosegments remplacent l’ancienne conception des phonèmes, jugés insuffisants à décrire de nombreux faits linguistiques. Dans ce cadre, la structure syllabique est représentée par un arbre à trois paliers indépendants d’unités phonologiques autonomes. Un palier syllabique correspondant à la syllabe même, un palier métrique représentant les positions métriques des segments, le squelette, en termes de consonne (C) et voyelle (V) et un palier segmental représentant les phonèmes (pour une présentation détaillée de la phonologie autosegmentale voir Goldsmith, 1990). Selon Floccia et al. (2003), si l’analyse du signal de parole s’opère via la syllabe phonologique de surface, alors des résultats identiques à ceux de Mehler et al. (1981) devraient apparaître. En revanche, si l’analyse du signal de parole est fondée sur un code phonologique plus abstrait, des couples de mots identiques au niveau de leur structure squelettale devraient être détectés plus rapidement que des couples de mots ne partageant que la syllabe phonologique de surface. Ces auteurs ont présenté aux participants des couples de mots partageant la même syllabe initiale (e.g.pa.lette – pa.tron) mais dont la représentation squelettale était différente, CVCVCCV et CVCCV respectivement. Des items qui ne partageaient pas la même syllabe initiale (e.g.pal.mé – pa.tron) mais partageaient la même représentation squelettale, CVCCV dans les deux cas, ont été également présentés au participants. Une première série de résultats a montré un effet de congruence syllabique, conformément aux résultats de Mehler et al. (1981). Cependant seuls les sujets les plus rapides ont témoigné de cet effet de congruence. Au cours d’une seconde expérience, les participants étaient incités à répondre le plus rapidement possible. Les résultats de cette étude ont montré un avantage significatif pour les couples du type « palmé- patron » comparés aux couples « palette-patron » suggérant que la structure squelettale et non pas la structure syllabique de surface était responsable de cet effet. Afin d’éviter un biais imputable à des différences acoustico-phonétiques relatives à la différence de prononciation des fragments (comme « pal » dans palette et palmé par exemple), ces fragments ont été coupés et réassociés de sorte que le « pal » de palmé se trouve à l’initiale de palette et inversement. Les résultats ont confirmé les précédents, montrant que la représentation squelettale ne dépendait pas d’indices acoustico-phonétiques plus fins. Selon les auteurs, la syllabe comme unité de segmentation n’est pas pour autant éliminée, simplement elle n’interviendrait pas à des temps précoces de traitement et serait sous-tendue par une représentation squelettale.

Au vu de ces résultats, il paraît difficile de soutenir la syllabe phonologique comme unité pertinente de traitement à l’oral. Cependant, il est possible d’envisager malgré tout que la syllabe soit nécessaire au traitement de l’oral. Récemment, Dupoux (2004 b) a proposé un modèle de reconnaissance de la parole impliquant l’utilisation nécessaire de la syllabe phonologique, le modèle SyllCat. L’argument principal de Dupoux (2004 b) est que le langage parlé est soumis à de trop nombreuses variations (phénomènes de coarticulation, variations suivant l’âge, le sexe du locuteur, le bruit environnant….) pour que le phonème soit suffisant pour l’analyse du flux continu de parole. La syllabe offrirait un cadre plus vaste à l’analyse du signal permettant d’atténuer les effets des variations inhérentes au signal de parole. Cependant Dupoux (2004 b) soulève un paradoxe. Compte tenu des contraintes acoustiques de l’oral, le nourrisson pour apprendre sa langue maternelle, serait obligé d’extraire les syllabes du flux auditif. Or, un prérequis pour l’analyse des syllabes serait la capacité à percevoir les unités discrètes de la langue. Il semble difficile de trancher en faveur d’une unité plutôt qu’une autre.». S’appuyant sur un certain nombre de travaux (Bertoncini et Mehler, 1981; Mehler, Dupoux et Segui, 1990; Ramus, Nespor, et Mehler, 1999), Dupoux (2004 b) propose que les syllabes soient les unités les plus précocement établies au sein du système perceptif et que seulement une fois ces unités acquises les phonèmes puissent être traités. Un avantage du modèle SyllCat est qu’il permet de rendre compte du traitement de l’oral à la fois chez le nourrisson, pour l’apprentissage du langage, et chez l’adulte, en prédisant les processus de traitement impliqués dans l’analyse de l’oral. Ce modèle est composé de deux niveaux, une banque de syllabes et une banque de segments. La banque de syllabes serait construite au fur et à mesure de l’exposition à l’oral, créant ainsi autant de patrons syllabiques que de syllabes perçues. Quand suffisamment de patrons syllabiques reposant sur une opposition vocalique, par exemple [ba, be, bi, bo, bu…], seraient disponibles en mémoire, alors l’extraction des différents segments vocaliques serait possible. Le même processus se répéterait ensuite pour la discrimination des phonèmes consonantiques, sur la base de comparaison entre [pa, ta , ka, ba, da, ga…] par exemple. Les segments phonétiques pertinents pour la langue seraient ainsi extraits et stockés sur la base des unités syllabiques. Chez l’adulte ce processus de catégorisation serait stabilisé et le traitement d’un input auditif déclencherait la recherche en mémoire des patrons syllabiques et segmentaux correspondants, pour finalement déboucher sur une représentation segmentale unique. De cette manière, les syllabes et les segments coexisteraient au sein du système. Cette proposition permet d’expliquer pourquoi en cas de séquence phonotactiquement illicite dans la langue, le système est capable d’initier une recherche sur les syllabes plausibles les plus proches. Ce processus rend également compte des phénomènes d’assimilations phonotactiques présentés par Segui et al. (2001). A ce titre, la syllabe pourrait bien représenter une unité fondamentale de segmentation de la parole et pourrait être considérée comme une unité perceptive de base dans le traitement du langage oral (Frauenfelder & Kearns, 1996).