3.4. Intérêts neurophysiologiques des potentiels évoqués auditifs en réponse à un son de parole:

3.4.1. Encodage spatial et temporel de l’information auditive

Quelles que soient leurs caractéristiques (voyelles constantes, présence d’un accent de langue, voyelles apériodiques - chuchotées -, voyelles fricatives sans voisement (Delgutte, 1980, 1984), les stimuli langagiers sont encodés de manière fidèle au niveau du tronc cérébral, l’activité de verrouillage de phase reflétée dans la FFR ayant été démontrée aussi bien pour des sons purs (Moushegian, 1973), des stimuli complexes (Greenberg et al, 1987) que pour des stimuli variant dans le temps (Krishnan & Parkinson, 2000 ; Lee et al, 2009).

L’étude des PEA en réponse à un son de parole a permis de caractériser de manière plus précise ce codage temporel et spatial de l’information: à faible intensité, la réponse temporelle à chaque stimulus est maximale dans les fibres nerveuses auditives ayant une fréquence caractéristique proche de celle du stimulus, suggérant une spécificité spatiale de la réponse. Ainsi, en augmentant l’intensité de stimulation, il existerait une diffusion spatiale jusqu’aux unités de hautes fréquences pour le codage des formants (Krishnan, 2002). Une étude récente a permis de mettre en évidence un effet de l’intensité du son de parole sur le temps de latence du signal PEASP. En effet la diminution de l’intensité de stimulation (entre 60 et 0 dB SL) entraîne un allongement de temps de latence des PEASP : de 7 à 10 ms pour la réponse impulsionnelle et de 15.6 à 23 ms pour la RSF. Toutefois, l’allongement du temps de latence de la réponse impulsionnelle (-0.6 ms pour 10 dB) est moins important que celui observé pour la RSF (-1.4 ms pour 10 dB), suggérant l’existence de deux voies séparées de traitement de l’information au niveau du tronc cérébral, avec des générateurs différents pour la réponse impulsionnelle et la RSF (Akhoun et al, 2008).

Le nerf auditif et les fibres du noyau cochléaire augmentent leur verrouillage de phase (aux harmoniques des formants) mais il apparaît que des populations neuronales différentes encoderaient les premier et deuxième formants (Johnson et al, 2008) qui seraient suffisants à l’identification de la plupart des voyelles (Krishnan, 2002). Un « seuil » d’encodage spatial et de verrouillage de phase de l’information auditive dans les situations de la vie courante pourrait donc être obtenu pour chaque sujet sur l’ensemble de la gamme fréquentielle (Johnson et al, 2005). Toutefois, l’activité de verrouillage de phase serait limitée à la fréquence de coupure au niveau du colliculus inférieur, qui est d’environ 1000 Hz (Batra et al, 1986 ; Galbraith et al, 1998).

Un même phonème peut revêtir, selon le contexte, une multitude de patterns acoustiques et le phénomène de co-articulation est prégnant surtout pour les consonnes, les voyelles montrant un pattern acoustique plus stable (Liberman et al, 1967). D’un point de vue électrophysiologique, l’enregistrement des réponses neuronales dans le bruit à différents sites sous-corticaux et corticaux chez l’animal (cobaye) montre un encodage sous-cortical plus robuste de la voyelle dans le bruit, les voyelles ayant une périodicité plus longue et plus forte que les consonnes (Cunningham et al, 2002 ; Russo et al, 2004). En condition de bruit, la transition formantique et les voyelles (RSF) restent encodées au niveau du tronc cérébral, alors que la réponse impulsionnelle est très réduite ou éliminée. Les problèmes perceptifs d’identification de la consonne dans le bruit peuvent donc être attribués à une diminution de la synchronisation neuronale de la réponse impulsionnelle, alors que la préservation de la RSF permettrait la perception de la voyelle (Russo et al, 2004). Cette résistance de la RSF dans le bruit par rapport à la réponse impulsionnelle laisse supposer une certaine différence dans leur processus d’encodage au niveau du tronc cérébral. De plus, l’analyse des PEASP montre que l’encodage de la fréquence fondamentale (qui est importante pour identifier le locuteur, la hauteur tonale -pitch - et percevoir la prosodie) persiste dans le bruit, alors que l’Onset-Response et le premier formant (essentiel à la perception phonémique) se dégradent (Russo et al, 2004).

La perception de la prosodie (intonation, stress), liée à F0, peut être déficiente dans certaines pathologies comme l’autisme. En effet, Russo et al. (2004) ont mis en évidence, sur des PEASP recueillis dans un groupe de 21 enfants présentant un syndrome autistique, une diminution de l’encodage de F0, ce qui pourrait être lié à une moins bonne perception de significations linguistiques (par exemple: affirmation ou question) et de l’émotion véhiculée par la parole.

Pour certains, la détection de la hauteur tonale par le tronc cérébral serait expérience-dépendante, malléable et liée au traitement d’autre facteurs cognitifs comme le langage et la musique : les musiciens encoderaient F0 de manière plus forte et avec un verrouillage de phase plus résistant en comparaison à des sujets non musiciens (Russo et al, 2008 ; Song et al, 2008 ; Wong et al, 2007). En effet, la pratique et l’écoute régulière de la musique feraient notamment intervenir des réseaux cognitifs supérieurs exerçant un effet modulateur corticofuge (modulation top-down) ayant pour conséquence une amélioration des capacités d’encodage au niveau sous-cortical. Cette intervention corticofuge expliquerait en partie, sur le plan neurophysiologique, les facilités d’apprentissage du langage présentes chez les musiciens (Lee et al, 2009). Enfin, l’asymétrie hémisphérique fonctionnelle liée aux traitements du langage a été mise en évidence également sur les réponses de type PEASP (Hornickel et la, 2008). En effet, l’existence d’une asymétrie fonctionnelle du traitement du langage est bien établie au niveau cortical (Habib et Robichon, 1998) : l’hémisphère gauche serait spécialisé dans le traitement de la parole, de par les caractéristiques acoustiques de celle-ci (événements acoustiques rapides associés aux transitions temporelles courtes, alors que la musique, dont les événements temporaux et spectraux sont plus soutenus et associés à des transitions plus lentes, serait traitée au niveau de l’hémisphère droit (Hornickel et al, 2008). Au niveau sous-cortical, des études électrophysiologiques ont montré des réponses d’apparition plus rapide et comportant des harmoniques correspondant au premier formant du stimulus plus robustes, lors d’une stimulation langagière monaurale droite par rapport à une stimulation controlatérale (Strait et al, 2009). Cette asymétrie périphérique a été également mise en évidence au niveau cochléaire et pourrait être liée au rétro-contrôle cortico-sous-cortical mis en évidence chez l’humain sur les oto-émissions acoustiques (Perrot et al, 2006). Ainsi, l’hypothèse d’une asymétrie périphérique présente dans les PEASP apparaît tout à fait plausible.