1.3. Les traits phonétiques

Dans la plupart des modèles de reconnaissance des mots parlés, la représentation infra-lexicale peut prendre différentes formes d’unités linguistiques : le phonème, la syllabe et le trait, en particulier. Rappelons brièvement qu’un phonème est défini comme la plus petite unité distinctive, non significative Il sert à créer des oppositions distinctives entre les mots, des différences de sens. En français, par exemple, la paire minimale [p]-[b] est mise en jeu dans une opposition distinctive : /pain/-/bain/, le changement d’un seul phonème entraîne un changement de sens, dans un même contexte. De même, deux sons ne se distinguent pas par une variation de leur longueur vocalique en français, par contre, la longueur vocalique en finnois permet de distinguer deux phonèmes différents. Quant à la syllabe, elle est construite à partir de plusieurs phonèmes associés selon des règles. En français, nous sommes dans un système rythmique syllabique consonne-voyelle-consonne-voyelle. La syllabe est l’unité linguistique constituée au minimum d’une voyelle, en français ou d’une voyelle et d’une consonne, en anglais (Liberman, Ingemann, Lisker, Delattre, & Cooper, 1959 ; voir toutefois Taft, 1979 pour une discussion). La structure de la syllabe comporte une attaque et une rime. La rime est elle-même formée d'un noyau et d'une coda (Figure 5). L'attaque comprend la (ou les) consonne(s) précédant le noyau. Le noyau est le point le plus proéminent de la syllabe. Il correspond généralement à une voyelle. La coda comprend la (ou les) consonne(s) suivant le noyau.

Figure 5 : Représentation structurale de la syllabe.

Les traits correspondent à une dimension phonétique servant à opposer deux séries de phonèmes (p. ex. voisé/non voisé, continu/interrompu, etc.). Les phonèmes sont constitués de traits distinctifs binaires qui prennent une valeur négative ou positive. Les traits distinctifs acoustiques correspondent aux traits articulatoires pour décrire la production de la parole. Trubetzkoy (1939) postule que le phonème n’est plus uniquement une unité phonétique distinctive mais est composé d’un faisceau de traits acoustiques.

Selon Jakobson, Fant et Halle (1952), un phonème est une combinaison de traits distinctifs plus élémentaires. Une douzaine de traits binaires ont été observés, dans une visée universelle, afin de pouvoir décrire tous les sons de toutes les langues. Ce système phonétique universel a finalement été abandonné pour tenter de trouver des indices acoustiques fiables. Notamment, les indices acoustiques les plus étudiés sont les formants des voyelles. Pour les consonnes, le bruit d’explosion, les transitions formantiques et le voisement sont des indices acoustiques pertinents pour les discriminer.

L’importance des indices acoustiques dans la reconnaissance de la parole n’est plus à démontrer (Kent & Moll, 1969 ; Lisker & Abramson, 1967 ; Serniclaes, 1987). Les signaux de parole sont construits à partir d’une combinaison complexe d’un grand nombre d’indices acoustiques. Leur redondance permet de percevoir le signal même quand ce dernier est détérioré grâce à un effet de substitution entre les indices. Par exemple, en français, les transitions formantiques, l’intensité de l’explosion, la valeur de F0 en début de voisement et la durée de la voyelle qui précède sont des indices acoustiques redondants qui peuvent contribuer à la distinction de voisement (Snoeren, Hallé, & Segui, 2006). Cependant, tous les indices n’ont pas la même importance dans l’identification de la parole. La détérioration de l’un des indices pourra impliquer plus de perte d’intelligibilité que l’altération d’un autre. Par conséquent, une étude précise de ces segments acoustiques est nécessaire afin d’identifier les indices acoustiques les plus pertinents dans l’intelligibilité de la parole. Delattre (1958) a fait une liste de tous les indices acoustiques du français. De nombreuses études ont démontré l’importance de segments spécifiques de la parole dans l’identification des phonèmes. Delattre, Liberman et Cooper (1955) ont été les premiers à montrer que la transition du second formant pouvait servir d’indice acoustique pour identifier une consonne occlusive et que cette transition était reliée au lieu d’articulation. En effet, la transition du second formant reflète les changements de taille de la cavité et de forme causés par les mouvements des articulateurs. Cette transition du second formant représenterait les mouvements articulatoires du lieu de production de la consonne à la position de la voyelle suivante. Lisker et Abramson (1964) découvrent un nouvel indice acoustique caractérisant le voisement des occlusives en position initiale, le Voice Onset Time (VOT).

Dans notre étude, nous nous sommes intéressés à deux traits phonétiques : le voisement et le lieu d’articulation. Les deux traits phonétiques permettent de discriminer les occlusives selon deux modalités : le contraste voisé/non voisé ([+ voisé] : /b/, /d/ et [- voisé] : /p/, /t/) et le contraste bilabiale/alvéolaire ([+ bilabial] : /b/, /p/ et [+ alvéolaire] : /d/, /t/). Nous allons détailler ces deux traits séparément.