1.1.La variabilité du signal de parole

Dans le cas de la perception de la parole, le traitement du signal acoustique est complexe du fait des caractéristiques mêmes du signal de parole. Le premier point est le caractère directionnel du signal de parole. Contrairement au langage écrit où le traitement du mot entier est possible car disponible à l’œil (si la longueur du mot n’est pas trop grande), le signal de parole subit une contrainte temporelle correspondant à l’ordre dans lequel les sons arrivent aux oreilles.

Le second point est la nature continue du signal de parole. Contrairement à l’écriture où la frontière entre les mots est marquée par un espace blanc, le signal de parole ne présente pas de frontières simples entre les mots, le flux est donc dit continu. Cette dernière caractéristique pose des difficultés, notamment, pour segmenter le signal en unités phonétiques discrètes.

Le troisième point est la variabilité du signal de parole. à l’écrit, le français (comme l’anglais) est une langue avec une orthographe opaque où la correspondance entre les lettres et les sons de parole (phonèmes) est souvent ambiguë, contrairement à l’italien qui a une orthographe transparente. Cette observation se retrouve également à l’oral où les sons ne sont quasiment jamais produits de la même façon entre les individus ou par le même individu et, selon les conditions de communication. Une infinité de formes sonores différentes peut donc correspondre à un seul phonème d’où la difficulté d’établir des correspondances directes entre les sons et les représentations phonétiques. L’auditeur se retrouve face à différentes prononciations, et pourtant, il est capable de décoder correctement le signal de parole. Par exemple, dans un dialogue spontané, le quart des éléments phonémiques est perdu (superposition ou/et coarticulation) comme si le locuteur avait effacé certains indices acoustiques nécessaires à l’établissement des représentations phonétiques des sons de parole. De plus, 30% des phones sont prononcés de manière substantiellement différente de la représentation phonémique (Greenberg, 1999). D’où la difficulté inhérente de traitement et d’identification du signal de parole. Malgré certains indices invariants, la quantité d’information n’est pas suffisante pour obtenir un pourcentage élevé d’identification correcte. L’absence d’invariants rend la parole difficile à traiter automatiquement. Elle ne permet pas de relier un à un le son et le phonème perçu. Des études ont été menées afin de trouver des propriétés invariantes de structures phonétiques spécifiques (Kewley-Port, 1983 ; Stevens & Blumstein, 1981 ; Sussman, McCaffrey, & Matthews, 1991). L’explosion des consonnes occlusives comportent des informations quasiment invariantes sur le lieu d’articulation des consonnes (Blumstein & Stevens, 1979). Sussman et al. (1991) montrent une invariance structurelle des formants. Stevens et Blumstein (1978) explorent ces indices invariants pour le trait de lieu d’articulation, en manipulant plusieurs caractéristiques acoustiques de consonnes occlusives dans des contextes différents (p. ex. le burst et les transitions). Les auteurs concluent qu’il existe des indices invariants selon le contexte vocalique. Nous pouvons donc nous appuyer sur certains indices du signal de parole pour identifier celle-ci, quelques soient les conditions d’écoute.

La variabilité des sons de parole est en partie attribuée au phénomène de coarticulation que nous aborderons plus longuement par la suite. La coarticulation rend compte d’un chevauchement des gestes articulatoires sur l’axe temporel. Les indices acoustiques vont donc être distribués sur le signal. Au niveau des traits phonétiques, on parlera d’assimilation.

Ces trois caractéristiques, directionnalité, continuité et variabilité, compliquent la reconnaissance des mots parlés. Pour que les mots soient correctement identifiés, deux problèmes majeurs doivent être résolus : la segmentation et la catégorisation.