III. Analyse des sons par le tronc cérébral :

3.1. Du clic au son de parole…

Historiquement, les premiers enregistrements électrophysiologiques du système auditif datent des années 1930 (Wever & Bray, 1930). Toutefois, la mise en évidence du potentiel évoqué auditif en réponse à des clics comme une mesure objective de la fonctionnalité des voies auditives ne débutera que 40 ans plus tard (Jewett et al, 1970) (PEA). Elle sera suivie par les premiers enregistrements d’une réponse soutenue à la fréquence (RSF définie ci-dessous) ou « Frequency Following Response », in situ chez l’animal (Worden & Marsh, 1968), et en champ lointain chez l’homme (Marsh et al, 1975). L’utilisation des potentiels évoqués auditifs en pratique clinique débuta dès les années 1980, avec une répartition en différents sous-groupes, définis en fonction de leurs latences d’apparition après le début du stimulus: les PEA de latences précoces ou PEAP (recueillis dans les 10 premières millisecondes), moyennes (entre 10 et 50 millisecondes) et longues (entre 50 à 80 millisecondes).

Toutefois les PEA en réponse à des clics présentent des limites. Ils ne permettent pas d’explorer l’ensemble de la gamme fréquentielle représentative du spectre auditif humain, ni l’exploration spécifique de l’encodage des informations temporelles et spectrales contenues dans des stimuli écologiquement valides, comme la parole (Song et al, 2006).

La réponse soutenue à la fréquence (RSF) est un phénomène naturel reflétant chez l’humain la synchronisation de l’activité des neurones auditifs sur la fréquence d’un stimulus extérieur. D’un point de vue physiologique, la RSF est un potentiel évoqué illustrant l’activité globale de verrouillage de phase dans les cellules du tronc cérébral, entre le noyau cochléaire et le corps genouillé médian du thalamus (Moushegian et al, 1973 ; Daly et al, 1976 ; Faingold & Caspary, 1979 ; Hall, 1979). Au niveau du colliculus inférieur, l’activité de verrouillage de phase est retrouvée jusqu’à 1000 Hz environ (Greenberg et al, 1987 ; Galbraith et al, 1995 ; Krishnan et al, 2005 ; Musacchia et al, 2007) et est composée de pics calqués sur la périodicité d’un stimulus complexe contenant des harmoniques à la fréquence fondamentale (F0) (Worden & Marsh, 1968; Krishnan et al, 2004 ; Marsh & Worden, 1970; Smith, 1975). L’activité de verrouillage de phase contenue dans la RSF permet donc l’encodage des fluctuations fréquentielles rapides du son de parole.

La RSF neuronale (de latence supérieure à 6 ms) obtenue en enregistrant la différence de potentiel entre une électrode placée sur le lobe auriculaire et une autre sur le scalp, est à différencier du potentiel microphonique cochléaire (de faible latence), que l’on peut faire disparaitre en faisant la moyenne des réponses obtenues à des paires de stimuli en opposition de phase (Sohmer et al, 1977). L’information contenue dans la RSF neuronale serait transmise le long de fibres provenant du tour apical de la cochlée et, après 3 à 5 synapses, atteint le colliculus inférieur (tronc cérébral) où la RSF neuronale est générée (Marsh et al, 1975 ; Moushegian et al, 1973; Sohmer et la, 1977; Delgutte, 1980).

La RSF reproduit une oscillation à une fréquence qui s’apparente, d’un point de vue perceptif, à la sensation de hauteur tonale perçue (Greenberg, 1987). Il est intéressant de noter qu’un stimulus composé d’un son pur modulé en amplitude ou en fréquence (modulation inférieure à 100 Hz), peut générer une réponse électrophysiologique, s’apparentant à une RSF : les PEA stationnaires multiples (PEASM) ou « auditory steady state response ».

Les PEASM sont générés à travers le système nerveux auditif par un stimulus continu dans le temps et sont représentés par un potentiel évoqué neuronal qui suit l’enveloppe d’un stimulus complexe périodique avec une activité de « verrouillage de phase ». Différents stimuli peuvent être utilisés pour l’étude des PEASM, variant par leur fréquence de modulation (90Hz (Rance et al, 1998), (80 Hz (Menard et al, 2008), ou bien composés de plusieurs fréquences porteuses (500 Hz, 1000 Hz, 2000 Hz, 4000 Hz), chacune modulée à une fréquence différente (John et al, 2002). Le stimulus vient exciter de façon continue une zone précise de la cochlée à une certaine fréquence, que l’on retrouve dans la réponse PEASM. L’analyse des fréquences recueillies est effectuée de manière individuelle afin de déterminer la présence d’une réponse à chaque fréquence audiométrique. Il a été par ailleurs mis en évidence, une corrélation entre l’amplitude des PEASM et la perception subjective d’intensité sonore ou sonie (Menard et al, 2008).

Les PEASM viennent en complément des PEA, notamment dans la prédiction des seuils auditifs sur l’ensemble de la gamme fréquentielle, chez le nouveau-né et l’enfant sédaté/endormi (Picton et al, 2003). De plus, les PEASM possèdent des champs d’investigation vastes tels que l’étude de l’encodage du fondamental des voyelles, (Aiken & Picton, 2006, 2008), l’objectivation de la fonction de sonie (Ménard et al, 2008), ou encore de la dys-synchronisation auditive dans le cadre des neuropathies auditives (Rance et al 1998).

Cependant, bien que les PEASM permettent une étude plus approfondie de l’audition d’un sujet, le traitement sous cortical de l’encodage temporel de la parole n’est pas analysable et les stimuli utilisés restent peu écologiques. Or, avec la mise en évidence de troubles du traitement de la structure fine de l’information temporelle, à l’origine de troubles auditifs en particulier en environnement bruyant, il apparaît nécessaire de disposer d’un outil diagnostique permettant une étude objective de cet encodage temporel : les PEASP répondent à cette nécessité (Johnson et al, 2005 ; Purcell et al, 2004; Wible et al, 2004).