1.1.1.La segmentation du signal de parole

Lorsque l’on écoute de la parole, on a l’impression qu’elle est composée d’un enchaînement de sons distincts. La séparation des mots à partir du flux de la parole est indispensable à la compréhension du discours et à l’accès lexical. La plupart des systèmes d’écriture possèdent des espaces blancs entre les mots. Dans le signal de parole, il n’existe pas d’indices clairs et univoques qui permettent de marquer le début et la fin des mots. La parole est dite « continue » : la segmentation est donc une étape majeure dans la reconnaissance des mots parlés. Selon un schéma classique des modèles de reconnaissance des mots parlés, la segmentation du signal de parole intervient entre le niveau acoustique d’entrée du stimulus et le niveau des représentations infra-lexicales (unités phonétiques). Ensuite, la représentation phonétique s’aligne et s’apparie avec les représentations lexicales pour reconnaître le mot. Les mots sont représentés sous forme phonologique (abstraite) dans le lexique et il existe des processus de comparaison entre l’entrée phonétique et la représentation linguistique (voir section ). Le système doit donc, dès le départ, être capable de gérer les manifestations acoustiques variables. La question importante est de savoir comment nous arrivons à traiter la variabilité du signal de parole. En situation de conversation normale, la forme phonétique de l’énoncé est différente de la représentation phonologique sous-jacente. On a donc une ambiguïté transitoire dans la chaine parlée ce qui nécessite un choix de segmentation afin d’activer le bon candidat lexical.

La segmentation correspond au découpage du signal acoustique en unités discrètes linguistiques. Des difficultés apparaissent notamment dans plusieurs contextes comme l’acquisition de la langue maternelle, la reconnaissance de mots parlés et l’acquisition d’une secondelangue, du fait de la double articulation. Cependant, des stratégies ont été mises en évidence pour pallier à ce problème de segmentation. Jusczyk (1999) rapporte les différentes études qui ont exploré la manière de segmenter la parole par des enfants. Cette revue d’études met en avant la sensibilité d’enfants anglais, dès l’âge de 10 ; 5 mois à d’autres indices de segmentation que l’accent, comme par exemple des indices allophoniques ou encore des règles phonotactiques. L’auteur montre que ces enfants peuvent utiliser de multiples indices pour trouver la frontière entre les mots en perception auditive, ce qui permet la reconnaissance des mots parlés. Il existe donc des processus de segmentation par l’auditeur, c’est-à-dire qu’il y aurait des indices dans le signal qui indiqueraient le début et la fin des mots. Ces indices sont de nature différente : il y a les indices acoustiques, métriques et phonotactiques (Banel & Bacri, 1997).

En ce qui concerne les indices acoustiques, ils correspondent, par exemple, à la longueur des voyelles qui est différente selon la position dans le mot, à la montée de fréquence fondamentale de la voyelle initiale (en français), à l’allongement de la consonne placée au début du mot et à l’allongement de la dernière syllabe des mots de contenu. Les auditeurs sont capables d’exploiter ces indices : lorsqu’on leur demande de faire un choix, ils sont capables de segmenter correctement un énoncé ambigu. Pour expliquer ce phénomène, Dumay, Content et Frauenfelder (1999), ont utilisé le paradigme online du Word Spotting. Les participants devaient détecter le plus rapidement possible un mot dans une séquence sans signification, ce qui reflète l’activité de segmentation du signal de parole en temps réel. Les stimuli contiennent des marques acoustiques de frontière qui indique un potentiel début de mot.

Quant aux indices métriques (ou prosodiques), ils correspondent à l’unité de mesure qu’est la syllabe et à l’accent. Le français est une langue avec un rythme syllabique (Mehler, Dommergues, Frauenfelder, & Segui, 1981). Il n’existe pas d’effet de segmentation syllabique pour les anglais. Sebastián-Gallés, Dupoux, Segui et Mehler (1992) montrent une segmentation syllabique en Catalan seulement pour les syllabes initiales non accentuées. L’anglais, étant une langue à accent, possède deux types de syllabes : les syllabes accentuées ou fortes qui contiennent des voyelles pleines et les syllabes faibles qui contiennent des voyelles réduites ou schwa. Or, seulement 9.8% des mots commencent par une voyelle faible. Par conséquent, la plupart des mots en anglais monosyllabiques ou plurisyllabiques ont leur première syllabe accentuée. Il existe une forte corrélation entre le début d’un mot et la syllabe forte (Cutler & Norris, 1988). Par conséquent, nous avons tendance à insérer des frontières avant des syllabes fortes ; même si ce n’est pas le cas (p. ex. « an allergy » au lieu « analogy »). De plus, nous avons tendance à enlever des frontières avant une syllabe faible (p. ex. « my gorgious » au lieu de « my gorge is »). Nous utilisons donc une stratégie de manière inconsciente qui consiste à segmenter le signal à chaque syllabe forte, on obtient un succès quasi-total à 90%. L’information prosodique joue donc un rôle important dans la segmentation lexicale.

Pour finir, les indices phonotactiques correspondent à des règles d’association des phonèmes qui existent dans les langues. Ces règles phonotactiques sont différentes selon les langues. En français, l’enchaînement de certains phonèmes est illégal en début ou en fin de syllabe (p. ex. /pz/) alors qu’il est possible à la frontière entre deux mots. Ces séquences semblent donc faciliter la segmentation (Banel & Bacri, 1997).

En dehors de la prise en compte de ces indices pour segmenter la parole, il est possible de prendre en compte les opérations qui sous tendent la compétition lexicale, c’est-à-dire que la compétition entre les candidats lexicaux va résoudre automatiquement le problème. Les inhibitions latérales jouent un rôle important dans cette compétition lexicale.

Nous venons de voir que certains indices acoustiques, voire invariants, facilitaient la segmentation et la reconnaissance du signal de parole. Le second problème, après la segmentation, associé au caractère variable de la parole est la catégorisation. Les difficultés de catégorisation viennent du fait qu’un son n’a pas de représentation phonétique bi-univoque, ce qui complique l’appariement d’un son avec une catégorie.