2.1. Le niveau acoustique :

La parole apparaît physiquement comme une variation de la pression de l’air causée et émise par le système articulatoire. La phonétique acoustique étudie ce signal en le transformant dans un premier temps en signal électrique grâce au transducteur approprié : le microphone. De nos jours, le signal électrique résultant est le plus souvent numérisé. Il peut alors être soumis à un ensemble de traitements visant à mettre en évidence les traits acoustiques : sa fréquence fondamentale (F0), son énergie et son spectre. Chaque trait acoustique est lui-même intimement lié à une grandeur perceptuelle : sensation de hauteur (pitch), intensité et timbre.

La structure fréquentielle de la parole :

La fréquence fondamentale est un composant de basse fréquence de la parole, résultant de la vibration des cordes vocales, permettant la perception de la hauteur tonale de la voix d’un individu. Elle s’étend approximativement de 70 à 250 Hz chez les hommes, de 150 à 400 Hz chez les femmes, et de 200 à 600 Hz chez les enfants.

La structure harmonique est un phénomène acoustique dont les composants (les harmoniques) sont des multiples de la fréquence fondamentale. Les harmoniques, sont caractérisés par une fréquence ou hauteur (exprimée en hertz, Hz) et une amplitude ou intensité (exprimée en décibels, dB). L’interaction entre la fréquence de vibration des cordes vocales et les résonnances du tractus vocal d’un individu, privilégie certains harmoniques, proches de la fréquence de résonnance du tractus vocal : les formants. Les deux premiers formants (F1 et F2), jouant un rôle important dans la perception auditive des voyelles (Fig 4).

Figure 4 : Représentation spectrale de deux voyelles (/i/ et/o/).
Figure 4 : Représentation spectrale de deux voyelles (/i/ et/o/).

Les bandes rouges fine correspondent aux harmoniques, tandis que les bandes rouges épaisses correspondent aux formants. A noter que les harmoniques sont beaucoup plus rapprochés chez l’homme que chez l

  • La structure temporelle de la parole :
    Les caractéristiques acoustiques temporelles jouent un rôle important dans la perception de la parole (Johnson et al, 2005 ; Skoe et al, in press). Elles interviennent en complément des informations fréquentielles (fréquence fondamentale et formants). On peut distinguer trois types d’information temporelle en fonction de la gamme de fréquence considérée :
  • L’enveloppe temporelle (« contour du son ») qui véhicule les informations relatives au rythme global de la phrase, la délimitation des syllabes et concerne les variations temporelles de moins de 50 Hz (> 20 ms).
  • La périodicité, qui reflète la prosodie (intonation de la voix), ainsi que le voisement (genre du locuteur, hauteur de la voix), et se situe entre 50 et 500 Hz.
  • Enfin, la structure fine temporelle, qui se situe au-delà de 500 Hz (durées < 2ms), et permet la perception, par exemple, des transitions formantiques (Rosen, 1992).
Fig. 5 : Illustration du type d’information temporelle contenue dans un signal de parole, ici la syllabe « BA ».
Fig. 5 : Illustration du type d’information temporelle contenue dans un signal de parole, ici la syllabe « BA ».

L’amplitude du signal recueilli au niveau du microphone est exprimée en fonction du temps en millisecondes (ms). La trace « a » représente la syllabe originale, la trace « b » représente la périodicité, entre 50 et 500 Hz (l’amplitude a été quadruplée pour une meilleure visibilité), et la trace « c » représente la structure fine temporelle, au-delà de 500 Hz.