VIII. Publications acceptées et n préparation

* D’après les résultats de l’expérience 1

Approche empirique pour determiner les générateurs neurophysiologiques sous-jacents des potentials évoqués auditifs engendrés par des sons de parole (Speech ABR).

Akhoun I, Berger-Vachon C., Collet L. (2010),

IRBM

* Revue de littérature sur les PEAPSP.

Exploration of the auditory system in humans: from click to speech auditory brainstem responses

Céline Richard, Arnaud Jeanvoine, Evelyne Veuillet, Annie Moulin, Hung Thai-Van

Clinical Neurophysiology (Neurophysiologie Clinique).

Accepté pour publication le 10/08/2010.

* D’après les resultats de l’expérience 5  (Manuscrit en préparation).

* D’après les resultats de l’expérience 6:

Characteristics of Speech ABR obtained at low stimulation levels.

(Manuscrit en preparation).

richard_c_annexes_article.pdf

EXPLORATION ELECTROPHYSIOLOGIQUE DES VOIES AUDITIVES SOUS-CORTICALES CHEZ L’HUMAIN:

DU CLIC AU SON DE PAROLE

Céline Richard 1,2, Arnaud Jeanvoine 1, Evelyne Veuillet 1,

Annie Moulin 1, Hung Thai-Van 1

EXPLORATION OF THE AUDITORY SYSTEM IN HUMANS:

FROM CLICK TO SPEECH AUDITORY BRAINSTEM RESPONSES

1 Laboratoire Neurosciences Sensorielles Comportement Cognition UMR CNRS 5020, Université de Lyon, Université Lyon 1, Hôpital Edouard Herriot, 5 place d'Arsonval - 69437 LYON cedex 03

2 Service d’ORL et de Chirurgie cervico-faciale, CHU de Saint-Etienne, Hôpital Nord - 42055 St-Etienne cedex 02

Auteur correspondant: Céline Richard

Tel: 04 72 11 05 26

Courriel: celine.richard@chu-st-etienne.fr

celrichdoc@hotmail.com

EXPLORATION ELECTROPHYSIOLOGIQUE DES VOIES AUDITIVES SOUS-CORTICALES CHEZ L’HUMAIN: DU CLIC AU SON DE PAROLE

Céline Richard, Arnaud Jeanvoine, Evelyne Veuillet,

Annie Moulin, Hung Thai-Van

EXPLORATION OF THE AUDITORY SYSTEM IN HUMANS:

FROM CLICK TO SPEECH ABR

Résumé:

La compréhension et l’évaluation des soubassements neurophysiologiques de la perception de la parole au niveau sous-cortical sont au centre des préoccupations de plus en plus de chercheurs, avec des applications cliniques potentielles dans les troubles du langage.

Cet article présente l’évolution des techniques permettant l’évaluation du traitement neuronal de la parole au niveau du tronc cérébral: d’abord les potentiels évoqués auditifs (PEA) en réponse à des clics, ensuite découverte de la réponse soutenue à la fréquence (RSF), enfin PEA en réponse à des sons de parole (PEASP) ou « Speech Auditory Brainstem Response».

Parce qu’ils permettent l’étude des mécanismes sous-corticaux du traitement des sons complexes, les PEASP apportent une vision objective, non invasive et en temps réel des capacités d’encodage neuronal de chaque individu au niveau du tronc cérébral. Leurs caractéristiques devraient leur permettre d’être utilisés comme marqueurs biologiques d’un déficit de l’encodage sous-cortical de la parole, ainsi que de la rééducation de ce type de déficit chez des personnes présentant des troubles de l’apprentissage et/ou du traitement de l’information auditive.

Mots clefs: Potentiels évoqués auditifs en réponse à un son de parole, tronc cérébral, marqueur biologique, information auditive, langage, réhabilitation auditive, potentiels évoqués auditifs (PEA).

Abstract:

There is a growing and unprecedented interest in the objective evaluation of the subcortical processes that are involved in speech perception, with potential clinical applications in speech and language impairments.

Here, we review the studies illustrating the development of electrophysiological methods for assessing speech encoding in the human brainstem: from the pioneer recordings of click-evoked auditory brainstem responses (ABR), via studies of frequency-following responses (FFR) to the most recent measurements of Speech Auditory Brainstem Response (SABR) or ABR in response to speech sounds.

Recent research on SABR has provided new insights in the understanding of subcortical auditory processing mechanisms. The SABR test is an objective and non invasive tool for assessing individual capacity of speech encoding in the brainstem. SABR characteristics are potentially useful both as a diagnosis tool of speech encoding deficits and as an assessment tool of the efficacy of rehabilitation programs in patients with learning and/or auditory processing disorders.

Key words: Speech Auditory Brainstem Response (SABR), brainstem, biological marker, auditory information, auditory rehabilitation, Auditory Brainstem Responses (ABR)

Introduction

Avant même l’interprétation du message auditif au niveau cortical, la perception de la parole implique tout un ensemble de traitements d’un signal acoustique complexe et extrêmement variable, composé d’informations spectrales et temporelles, à différents niveaux du système auditif [36]. Ainsi, l’information auditive est transmise de manière ascendante au cortex auditif primaire (circonvolutions de Heschl situées au niveau temporal) après différents traitements à chaque relais, du nerf auditif jusqu’au cortex. Le premier relais est effectué au niveau des noyaux cochléaires ventraux et dorsaux à partir desquels un important contingent de fibres croisent la ligne médiane (au niveau des corps trapézoïdes), un second relais est effectué au niveau des complexes olivaires supérieurs (tronc cérébral), ensuite dans les lemnisques latéraux (au niveau de la commissure de Probst), des colliculi inférieurs (mésencéphale) et enfin au niveau des corps genouillés médians (au niveau thalamique). Des décussations s’effectuent au niveau des corps trapézoïdes et à des niveaux plus élevés (noyaux du lemnisque latéral, tubercules quadrijumeaux postérieurs), de telle sorte que la majorité des fibres issues d’une oreille ont croisé la ligne médiane lors de l’arrivée des influx au niveau thalamique [9, 25]. Parallèlement à ces voies afférentes, un système corticofuge efférent auditif module l’information auditive par de multiples boucles de rétrocontrôle, les plus courtes réalisées par les projections cortico-thalamiques et les plus longues constituées par les voies efférentes connectées aux cellules des complexes olivaires supérieurs (tronc cérébral) ainsi qu’aux cellules ciliées externes de l’organe auditif périphérique [54, 62, 76]. Ainsi, l’exploration du traitement des sons de parole par le tronc cérébral et la compréhension de ses mécanismes fourniraient un aperçu des caractéristiques du message auditif tel qu’il est envoyé au cortex.

Différentes approches sont utilisées afin de comprendre les mécanismes physiologiques auditifs intervenant dans la perception de la parole. La première, utilisée en pratique clinique courante, correspond aux potentiels évoqués auditifs (PEA) et teste l’intégrité des voies auditives, de la cochlée jusqu’à la portion moyenne du tronc cérébral. L’enregistrement des PEA fait appel à une technique non invasive et sensible de recueil de l’activité électroencéphalographique en réponse à des stimuli sonores simples tels des clics [7, 82]. Les études neurophysiologiques ont permis de mettre en évidence l’existence d’un traitement pré-cortical de l’information auditive au niveau du tronc cérébral, où l’information temporelle et spectrale contenue dans la parole serait encodée [36, 69]. Cependant, si les PEA en réponse à des clics nous permettent d’objectiver l’intégrité des voies auditives, les caractéristiques de l’encodage spectral et temporel de la parole font appel à des stimuli plus écologiques et de complexité bien supérieure à celle d’un clic, à savoir des stimuli langagiers donnant lieu à des potentiels évoqués auditifs (PEA) spécifiques: les PEA en réponse à un son de parole (PEASP) ou « speech auditory brainstem responses ». Cette approche permettrait de mettre en évidence certains troubles de perception de la parole dus à des dysfonctionnements de l’encodage des sons langagiers au niveau du tronc cérébral, ceci de manière non invasive, fiable et sensible [6, 69, 76].

Cet article s’attachera à une revue sommaire des différents types d’enregistrements neurophysiologiques auditifs de courte latence [PEA en réponse à des clics, réponses soutenues à la fréquence (RSF), PEA stationnaires multiples (PEASM)] ainsi que des caractéristiques acoustiques des sons de la parole, avant d’aborder l’étude de l’encodage des sons langagiers au niveau sous-cortical au moyen des PEASP.

Du clic au son de parole…

Historiquement, les premiers enregistrements électrophysiologiques du système auditif datent des années 1930 [77]. Toutefois, la mise en évidence du PEA en réponse à des clics en tant que mesure objective de la fonctionnalité des voies auditives ne débutera que 40 ans plus tard [32]. Elle sera suivie par les premiers enregistrements d’une réponse soutenue à la fréquence (RSF ou « Frequency Following Response »), in situ chez l’animal [81] et en champ lointain chez l’homme [50]. L’utilisation des PEA en pratique clinique débuta dès les années 1980, avec une répartition en différents sous-groupes en fonction de leurs latences d’apparition par rapport au stimulus : les PEA de latences précoces ou PEAP (recueillis dans les 10 premières millisecondes), les PEA de latences moyennes (entre 10 et 50 millisecondes) et les PEA corticaux (temps de latence supérieurs à 50 millisecondes). D’autres stimuli sont utilisés pour acquérir les PEA de latences moyennes et tardifs : il s’agit des bouffées tonales ou « tones bursts », correspondant à des sons purs émis pendant des durées de quelques millisecondes (20ms, 500Hz) [25]. Toutefois les PEA du tronc cérébral, obtenus en réponse à des clics, présentent des limites. Ils ne permettent d’explorer ni l’ensemble de la gamme fréquentielle représentative du spectre auditif humain, ni l’encodage des informations temporelles et spectrales contenues dans des stimuli écologiquement valides, comme la parole [73].

La RSF est un phénomène naturel reflétant chez l’humain la synchronisation de l’activité des neurones auditifs sur la fréquence d’un stimulus extérieur. D’un point de vue physiologique, la RSF est un potentiel évoqué représentant l’activité globale de verrouillage de phase dans les cellules du tronc cérébral, entre le noyau cochléaire et le corps genouillé médian du thalamus [12, 17, 27, 55]. Au niveau du colliculus inférieur, l’activité de verrouillage de phase est retrouvée jusqu’à 1000 Hz environ [12, 17, 19, 24, 27, 43, 55, 57] et est composée de pics calqués sur la périodicité d’un stimulus complexe contenant des harmoniques de la fréquence fondamentale (F0) [44, 51, 70, 81]. L’activité de verrouillage de phase contenue dans la RSF permet donc l’encodage des fluctuations fréquentielles rapides du son de parole. La RSF neuronale (de latence supérieure à 6 ms) obtenue en enregistrant la différence de potentiel entre des électrodes placées sur le lobe de l’oreille et sur le scalp, est à différencier du potentiel microphonique cochléaire (de faible latence), que l’on peut faire disparaître en faisant la moyenne des réponses obtenues à des paires de stimuli en opposition de phase [71]. L’information contenue dans la RSF neuronale serait transmise le long de fibres provenant du tour apical de la cochlée et, après 3 à 5 synapses, atteindrait le colliculus inférieur où la RSF neuronale est générée [13, 51, 55, 71]. La RSF reproduit une oscillation à une fréquence qui s’apparente d’un point de vue perceptif à la sensation de hauteur tonale perçue [24]. Il est intéressant de noter qu’un son pur modulé en amplitude ou en fréquence (modulation inférieure à 100 Hz) peut générer une réponse électrophysiologique s’apparentant à une RSF : les PEA stationnaires multiples (PEASM) ou « auditory steady-state response ».

Les PEASM sont générés à travers le système nerveux auditif par un stimulus continu dans le temps et sont représentés par un potentiel évoqué neuronal qui suit l’enveloppe d’un stimulus complexe périodique avec une activité de « verrouillage de phase ». Pour l’étude des PEASM, plusieurs fréquences porteuses (250Hz, 500Hz, 1000Hz, 2000Hz, 4000Hz, 8000Hz) sont utilisées comme stimuli, chacune modulée en amplitude à une fréquence différente (90Hz [64] ou 80Hz [52], [33]). La réponse est enregistrée pour chaque fréquence de modulation d’amplitude associée à une fréquence porteuse précise. Cette étude peut être effectuée sur plusieurs fréquences porteuses simultanément et ceci de manière bilatérale, en conduction osseuse ou aérienne. L’analyse des fréquences recueillies est effectuée de manière individuelle afin de déterminer la présence d’une réponse à chaque fréquence audiométrique. Il a été par ailleurs mis en évidence, une corrélation entre l’amplitude des PEASM et la perception subjective d’intensité sonore ou sonie [52]. Les PEASM s’inscrivent en complément des PEA, notamment dans la prédiction des seuils auditifs sur l’ensemble de la gamme fréquentielle chez le nouveau-né et l’enfant sédaté ou endormi [61]. De plus, les PEASM couvrent des champs d’investigation vastes tels que l’étude de l’encodage du fondamental des voyelles, [2, 3], l’objectivation de la fonction de sonie [52], ou encore la dyssynchronisation auditive dans le cadre des neuropathies auditives [64].

Cependant, bien que les PEASM permettent une étude plus approfondie de l’audition d’un sujet, le traitement sous-cortical de l’encodage temporel de la parole n’est pas analysable et les stimuli utilisés restent peu écologiques. Or, avec la mise en évidence de troubles du traitement de la structure fine de l’information temporelle, à l’origine de troubles auditifs en particulier en environnement bruyant [48], il apparaît nécessaire de disposer d’un outil diagnostique permettant une étude objective de cet encodage temporel: les PEASP répondent à cette nécessité [36, 63, 78].

Analyse des sons par le tronc cérébral

Caractéristiques d’un son de parole

Un son de parole est codé à la fois dans sa dimension fréquentielle et sa dimension temporelle. L’analyse spectrale des sons de parole permet la description de certains éléments acoustiques tels que leur fréquence fondamentale et leur structure harmonique. La fréquence fondamentale est un composant de basse fréquence de la parole résultant de la vibration des cordes vocales et permettant la perception de la hauteur tonale de la voix d’un individu. La structure harmonique est un phénomène acoustique dont les composants (les harmoniques) sont des multiples de la fréquence fondamentale. L’interaction entre la fréquence de vibration des cordes vocales et les résonances du tractus vocal d’un individu privilégie certains harmoniques proches de la fréquence de résonance du tractus vocal : les formants. Les deux premiers formants jouent d’ailleurs un rôle majeur dans la perception des voyelles [1]. L’utilisation de stimuli contenant des voyelles pour l’étude des sons de parole est indispensable si l’on veut se rapprocher de stimuli naturels.

Les caractéristiques acoustiques temporelles jouent un rôle important dans la perception de la parole [49, 68]. Elles interviennent en complément des informations fréquentielles (fréquence fondamentale et formants). On peut distinguer trois types d’information temporelle en fonction de la gamme de fréquence considérée :

L’enveloppe temporelle (« contour du son ») véhicule les informations relatives au rythme global de la phrase, la délimitation des syllabes et concerne les variations temporelles de moins de 50 Hz (> 20 ms).

La périodicité reflète la prosodie (intonation de la voix), ainsi que le voisement (genre du locuteur, hauteur de la voix) et se situe entre 50 et 500 Hz.

Enfin, la structure fine temporelle (SFT) se situe au-delà de 500 Hz (durées < 2ms). Celle-ci jouerait un rôle aussi bien dans la perception de la hauteur tonale [53] que dans la perception de la parole. En effet, chez le normo-entendant, l’élimination des indices de structure fine entraîne une dégradation de l’intelligibilité de la parole dans un bruit fluctuant [23]. De plus, certains patients avec une perte auditive neurosensorielle présentent une capacité réduite à exploiter ces indices de structure fine temporelle, et donc davantage de difficultés de perception de la parole dans le bruit. En effet, ces indices de SFT participeraient notamment à l’exploitation des creux sonores présents dans un bruit modulé. Cette capacité d’utilisation des creux sonores serait nécessaire à la détection de signaux langagiers et non langagiers dans les situations adverses [23, 49, 53].

Chacun de ces types d’information a son importance vis-à-vis de la compréhension de la parole. Par exemple, la perception catégorielle permettant de distinguer les phonèmes p/b est basée sur la perception du délai du voisement, long de quelques dizaines de millisecondes en Français. Ce délai du voisement correspond au temps entre le relâchement de l’obstruction dans la production de la consonne et la mise en vibration des cordes vocales. Il est donc important de disposer d’outils cliniques (méthodes objectives et subjectives) permettant d’évaluer l’acuité auditive par rapport à ces caractéristiques temporelles.

Encodage des sons par le tronc cérébral

L’encodage des informations auditives par le tronc cérébral fait appel à la notion de « codage neuronal temporel », caractérisé par la synchronisation des décharges des cellules du système auditif sur la périodicité du stimulus acoustique : c’est le principe de verrouillage de phase ou « phase-locking » [6, 69]. Ce verrouillage de phase se répercute tout le long des voies auditives afférentes en se limitant à des fréquences de plus en plus basses au fur et à mesure que le message nerveux est intégré : il intervient jusqu’à des fréquences de stimulation de 4 à 5 kHz au niveau du nerf auditif, et pour des fréquences inférieures à 80 Hz dans le cortex auditif [59]. Cette activité de verrouillage de phase, présente dans les neurones du tronc cérébral, joue un rôle prépondérant dans l’encodage neuronal des caractéristiques temporelles et spectrales d’un son de parole [65].

Les potentiels évoqués auditifs en réponse à un son de parole (PEASP)

Les PEASP (ou « speech auditory brainstem responses ») sont des PEA en réponse à un son de parole et reflètent l’activation de générateurs neuronaux le long du tractus auditif ascendant, donnant une image fonctionnelle des mécanismes physiologiques impliqués dans le traitement des signaux complexes [13, 19, 24,].

Méthode d’acquisition des PEASP

Les stimuli les plus couramment utilisés sont des syllabes (par exemple /da/ [36, 69]; /ba/ [4]) contenant en moyenne 5 formants, dont la durée varie de 40 millisecondes à plusieurs centaines de millisecondes. Ces stimuli sont le plus souvent présentés de manière monaurale à droite avec des intensités variant de 50 dB SL [12] à 90,3 dB SPL [30]. Le son est délivré via des inserts afin d’éviter l’artefact électromagnétique.

Les réponses EEG induites par les stimuli sont enregistrées à l’aide d’électrodes cutanées placées sur le vertex (électrode positive), le front (masse) et chaque mastoïde (électrodes négatives) [5, 21, 36, 42, 69]. Le moyennage (nombre de répétitions du stimulus) porte sur un nombre variable - de 999 [22, 55] à 6000 [69, 78] - de répétitions collectées pour chaque polarité du stimulus, avec une fenêtre d’enregistrement variant de 52ms [78] à plus de 340 ms en fonction des stimuli utilisés [74] (Tableaux 1 et 1bis). Les montages utilisés pour le recueil sont sensiblement identiques et s’apparentent à celui représenté sur la Figure 1.

En quoi consiste un PEASP-type ?

Les PEA en réponse à une syllabe peuvent être divisés en différentes parties (Figure 2a, b) :

La première partie est représentée par la réponse impulsionnelle ou « Onset Response », précédée par une phase d’enregistrement pré-stimulus (appelée « pré-moyennage »), destinée à l’évaluation du bruit électrophysiologique ambiant. La réponse impulsionnelle (ondes V-A) est une réponse transitoire, encodant les variations temporelles rapides inhérentes à la consonne. Elle est similaire au PEA généré par un clic et apparaît approximativement 7 ms après le début du stimulus.

La seconde partie, correspondant à la FFR, apparaît en réponse aux harmoniques et à la structure périodique de la voyelle à la fréquence de la source (voisement) ; elle présente une activité soutenue, la périodicité des pics de cette phase correspondant à l’information fréquentielle contenue dans le stimulus [50, 65]. La période entre les pics C, D, E, F de la FFR (activité de verrouillage de phase) correspond a la fréquence fondamentale du stimulus (F0), tandis que les pics compris entre les ondes C, D, E, F représentent l’activité de verrouillage de phase à la fréquence du premier formant F1 [6]. Une dernière onde apparaît ensuite : l’onde O qui correspond à l’arrêt du son, et temporellement à la fin du stimulus [36].

Selon les équipes et les protocoles, les méthodes d’analyse varient et sont répertoriées dans les Tableaux 1 et 1bis.

La mesure des latences d’apparition des différentes parties de la réponse (réponse impulsionnelle et réponse soutenue à la fréquence) est effectuée par une intercorrélation entre le stimulus et la réponse. Enfin, l’énergie du signal est habituellement calculée à l’aide de la racine quadratique moyenne (RMS) de la réponse soutenue à la fréquence et le rapport signal-bruit peut s’estimer en calculant le bruit sur plusieurs millisecondes d’enregistrement pré-stimulus. Les critères de validité d’une réponse peuvent être établis en utilisant par exemple un test statistique de comparaison de variances (F-test), basé sur le F-ratio entre l’énergie calculée sur les fréquences correspondant aux fréquences du stimulus, et l’énergie calculée sur les fréquences voisines [15, 61, 83].

PEASP : artefact ou réponse neurophysiologique ?

Dans le cas des PEASP, la simultanéité entre la stimulation et l’enregistrement, d’une part, la forte similitude entre la forme du stimulus et le pattern du signal recueilli, d’autre part, font que le risque d’artefact électromagnétique est particulièrement important. Cet artefact, résultant de la superposition du signal neuronal (RSF) et du couplage électromagnétique des transducteurs, est lié aux problèmes de compatibilité électromagnétique entre la chaîne de stimulation (en majeure partie les transducteurs acoustiques) et les électrodes de recueil. En effet, la précision, souvent spectaculaire, de la synchronisation entre la RSF et la voyelle, pose la question de l’authenticité de cette réponse neuronale [71] qui pourrait n’être que le reflet du couplage électromagnétique entre la chaîne de stimulation et les électrodes de recueil. Cet artefact n’existe pas avec les PEA en réponse à des clics, car le PEA n’est pas enregistré de manière concomitante au stimulus. Pour les PEASM, dont la réponse est concomitante au stimulus, l’artefact peut être éliminé grâce aux différentes fréquences de modulation [5]. Les PEASP sont, quant à eux, difficiles à distinguer de l’artefact, les premiers pics fréquentiels du stimulus correspondant à ceux de la réponse soutenue à la fréquence. De plus, dans le cas des PEASP, la polarité alternée (stimulus envoyé alternativement de manière inversée et non inversée [24, 36]) à elle seule ne suffit pas à annuler les réponses artefactuelles. L’élimination des réponses artefactuelles doit être effectuée dans un premier temps en amont, par l’isolation de la chaîne de recueil. En effet, les transducteurs les moins susceptibles de donner lieu à du couplage électromagnétique sont les écouteurs intra-auriculaires (Figure 3) dont la totalité de l’habitacle (hormis les tubes d’air) ainsi que les fils sont encastrés dans une cage de Faraday, reliée à la masse électrique (unique) du dispositif expérimental [5]. En effet, tous les autres transducteurs risquent d’engendrer des réponses contaminées pour les intensités de stimulation habituellement utilisées (Figure 3). Les casques habituellement utilisés en audiologie (TDH 39) sont donc à proscrire dans l’enregistrement des PEASP. Enfin, la validation de la nature neurophysiologique des réponses peut se faire en vérifiant l’absence de réponse dans un modèle inerte et l’absence de réponse chez des patients présentant une cophose (surdité complète) unilatérale [5]. Enfin, l’observation d’un temps de latence de 7 à 10 ms entre le stimulus et la réponse visible sur les PEASP est en faveur du caractère neurophysiologique de celle-ci.

Où est générée la réponse ? 

Pour une utilisation clinique, outre la détection objective de certaines pathologies, il est pertinent de poser la question de la localisation des générateurs des PEASP le long des voies auditives. Les neurones du système auditif ont des caractéristiques fonctionnelles spécifiques, telles que des taux de décharges spontanées, des fréquences de réponse et des types de décharges (transitoires, périodiques synchronisées, périodiques mais à une périodicité intrinsèque). De plus, chaque filtre auditif répond avec un décalage temporel (en raison du délai de propagation de la vibration de la membrane basilaire) et chaque noyau cellulaire répond également au son avec des latences progressives d’une milliseconde en sortie de la cochlée jusqu’à une dizaine de millisecondes dans le colliculus inférieur. A priori, aucune réponse identifiable ne devrait parvenir aux électrodes sur le scalp, ou alors noyée dans le bruit de fond résultant de l’ensemble de l’activité neuronale. Toutefois, les phénomènes électriques expliquant la propagation du message nerveux jusqu’au scalp ont récemment été décrits dans le cas des PEA en réponse à des clics, et peuvent être étendus aux PEASP. En effet, d’un point de vue physique, le champ électromagnétique composite accompagnant le signal électrophysiologique peut être transmis jusqu’aux électrodes de scalp lorsque le signal change de milieu biologique (tissu neuronal, liquide céphalo-rachidien, os, peau) et lorsque suffisamment de neurones déchargent de façon synchrone [16]. Les neurones thalamiques, à la différence de ceux du colliculus inférieur, ne semblent pas impliqués dans la genèse des PEASP. En revanche, les caractéristiques de propagation de l’information auditive jusqu’au cortex peuvent s’expliquer par l’existence d’un mode de codage neuronal spécifique dénommé « fonction de transfert du taux de modulation » (rMTF) des cellules du colliculus inférieur. Ce mode repose sur le codage de l’information de modulation de fréquence par des variations du taux de décharge proportionnelles à cette fréquence modulante [38]. A contrario, les noyaux cellulaires de la périphérie cochléaire utilisent uniquement un type de codage temporel-MTF (fonction de transfert de modulation temporelle) : les cellules déchargent chacune selon leurs caractéristiques spécifiques, mais avec une période correspondant à celle du stimulus. La variation périodique de courant synchronisé sur la périodicité de la modulante (F0) présente dans le codage rMTF, semble donc plus à même de résulter en une différence de potentiel enregistrable sur le scalp.

Les PEASP apporteraient donc un aperçu précis du fonctionnement du colliculus inférieur. Ceci serait en particulier très utile au diagnostic différentiel des surdités centrales ou des neuropathies auditives [41].

Intérêts neurophysiologiques des potentiels évoqués auditifs en réponse à un son de parole

Encodage spatial et temporel de l’information auditive

Quelles que soient leurs caractéristiques (voyelles constantes, présence d’un accent de langue, voyelles apériodiques - chuchotées -, voyelles fricatives sans voisement [13, 14]), les stimuli langagiers sont encodés de manière fidèle au niveau du tronc cérébral, l’activité de verrouillage de phase reflétée dans la FFR ayant été démontrée aussi bien pour des sons purs [55], des stimuli complexes [24] que pour des stimuli variant dans le temps [42, 46].

L’étude des PEA en réponse à un son de parole a permis de caractériser de manière plus précise ce codage temporel et spatial de l’information: à faible intensité, la réponse temporelle à chaque stimulus est maximale dans les fibres nerveuses auditives ayant une fréquence caractéristique proche de celle du stimulus, suggérant une spécificité spatiale de la réponse. Ainsi, en augmentant l’intensité de stimulation, il existerait une diffusion spatiale jusqu’aux unités de hautes fréquences pour le codage des formants [45]. Une étude récente a permis de mettre en évidence un effet de l’intensité du son de parole sur le temps de latence du signal PEASP. En effet la diminution de l’intensité de stimulation (entre 60 et 0 dB SL) entraîne un allongement de temps de latence des PEASP : de 7 à 10 ms pour la réponse impulsionnelle et de 15.6 à 23 ms pour la RSF. Toutefois, l’allongement du temps de latence de la réponse impulsionnelle (-0.6 ms pour 10 dB) est moins important que celui observé pour la RSF (-1.4 ms pour 10 dB), suggérant l’existence de deux voies séparées de traitement de l’information au niveau du tronc cérébral, avec des générateurs différents pour la réponse impulsionnelle et la RSF [4].

Le nerf auditif et les fibres du noyau cochléaire augmentent leur verrouillage de phase (aux harmoniques des formants) mais il apparaît que des populations neuronales différentes encoderaient les premier et deuxième formants [34] qui seraient suffisants à l’identification de la plupart des voyelles [45]. Un « seuil » d’encodage spatial et de verrouillage de phase de l’information auditive dans les situations de la vie courante pourrait donc être obtenu pour chaque sujet sur l’ensemble de la gamme fréquentielle [4]. Toutefois, l’activité de verrouillage de phase serait limitée à la fréquence de coupure au niveau du colliculus inférieur, qui est d’environ 1000 Hz [8, 20, 24].

Un même phonème peut revêtir, selon le contexte, une multitude de patterns acoustiques et le phénomène de co-articulation est prégnant surtout pour les consonnes, les voyelles montrant un pattern acoustique plus stable [47]. D’un point de vue électrophysiologique, l’enregistrement des réponses neuronales dans le bruit à différents sites sous-corticaux et corticaux chez l’animal (cobaye) montre un encodage sous-cortical plus robuste de la voyelle dans le bruit, les voyelles ayant une périodicité plus longue et plus forte que les consonnes [10, 65]. En condition de bruit, la transition formantique et les voyelles (RSF) restent encodées au niveau du tronc cérébral, alors que la réponse impulsionnelle est très réduite ou éliminée [26]. Les problèmes perceptifs d’identification de la consonne dans le bruit peuvent donc être attribués à une diminution de la synchronisation neuronale de la réponse impulsionnelle, alors que la préservation de la RSF permettrait la perception de la voyelle [65]. Cette résistance de la RSF dans le bruit par rapport à la réponse impulsionnelle laisse supposer une certaine différence dans leur processus d’encodage au niveau du tronc cérébral. De plus, l’analyse des PEASP montre que l’encodage de la fréquence fondamentale (qui est importante pour identifier le locuteur, la hauteur tonale -pitch - et percevoir la prosodie) persiste dans le bruit, alors que l’Onset-Response et le premier formant (essentiel à la perception phonémique) se dégradent [65].

La perception de la prosodie (intonation, stress), liée à F0, peut être déficiente dans certaines pathologies comme l’autisme. En effet, Russo et al. [67] ont mis en évidence, sur des PEASP recueillis dans un groupe de 21 enfants présentant un syndrome autistique, une diminution de l’encodage de F0, ce qui pourrait être lié à une moins bonne perception de significations linguistiques (par exemple: affirmation ou question) et de l’émotion véhiculée par la parole.

Pour certains, la détection de la hauteur tonale par le tronc cérébral serait expérience-dépendante, malléable et liée au traitement d’autre facteurs cognitifs comme le langage et la musique : les musiciens encoderaient F0 de manière plus forte et avec un verrouillage de phase plus résistant en comparaison à des sujets non musiciens [67, 72, 80]. En effet, la pratique et l’écoute régulière de la musique feraient notamment intervenir des réseaux cognitifs supérieurs exerçant un effet modulateur corticofuge (modulation top-down) ayant pour conséquence une amélioration des capacités d’encodage au niveau sous-cortical. Cette intervention corticofuge expliquerait en partie, sur le plan neurophysiologique, les facilités d’apprentissage du langage présentes chez les musiciens [46, 80]. Enfin, l’asymétrie hémisphérique fonctionnelle liée aux traitements du langage a été mise en évidence également sur les réponses de type PEASP [30]. En effet, l’existence d’une asymétrie fonctionnelle du traitement du langage est bien établie au niveau cortical [26] : l’hémisphère gauche serait spécialisé dans le traitement de la parole, de par les caractéristiques acoustiques de celle-ci (événements acoustiques rapides associés aux transitions temporelles courtes, alors que la musique, dont les événements temporaux et spectraux sont plus soutenus et associés à des transitions plus lentes, serait traitée au niveau de l’hémisphère droit [30]. Au niveau sous-cortical, des études électrophysiologiques ont montré des réponses d’apparition plus rapide et comportant des harmoniques correspondant au premier formant du stimulus plus robustes, lors d’une stimulation langagière monaurale droite par rapport à une stimulation controlatérale [30, 75]. Cette asymétrie périphérique a été également mise en évidence au niveau cochléaire [39] et pourrait être liée au rétro-contrôle cortico-sous-cortical mis en évidence chez l’humain sur les oto-émissions acoustiques [60]. Ainsi, l’hypothèse d’une asymétrie périphérique présente dans les PEASP apparaît tout à fait plausible.

Applications cliniques potentielles des PEASP

L’intérêt des PEASP réside dans les nombreuses informations théoriques et cliniques que ceux-ci nous donnent sur le traitement des stimuli auditifs complexes au niveau du tronc cérébral [36, 65]. Les PEASP peuvent ainsi être utilisés comme marqueurs biologiques d’une déficience d’encodage des sons au niveau du tronc cérébral [ 37, 40, 78, 79]. Ainsi, le recueil des PEASP dans le bruit permet d’objectiver la dégradation de l’encodage des sons de parole, avec une moins bonne résistance de la consonne par rapport à la voyelle, chez des individus normaux [47] et par extension chez des personnes présentant des troubles de l’intelligibilité.

Les difficultés de traitement du signal au niveau central observées chez des enfants présentant des troubles des apprentissages, se traduisent sur les PEASP par une diminution de la réponse RSF, une amplitude plus faible et une durée allongée de la réponse impulsionnelle (complexe V-A) [78]. Ceci suggère qu’une représentation appauvrie des composants-clés du signal de parole au niveau du tronc cérébral, contribuerait aux difficultés du traitement du même signal à un niveau plus central [78]. Différents groupes peuvent ainsi être individualisés au sein de ces mêmes enfants, selon qu’une corrélation est retrouvée ou non entre les mesures effectuées au niveau de leur tronc cérébral (PEASP) et celles effectuées au niveau cortical. Lorsque cette corrélation existe, les PEASP sont un outil précieux pour le clinicien, puisqu’ils permettent de juger de l’efficacité des programmes de réhabilitation [40, 66, 79]. L’absence d’anomalie des PEASP chez certains enfants souffrants de troubles des apprentissages a été interprétée comme la conséquente modulation corticofuge du traitement de la parole par le tronc cérébral [1, 72, 73]. Un système de mesure dédié à l’enregistrement des réponses du tronc cérébral à des sons complexes (BioMAP: Biological Marker of Auditory Processing) a été proposé par Kraus et collègues afin d’identifier, chez les enfants, les troubles des apprentissages accessibles à une rééducation [28]. De plus, les PEASP ont également mis en évidence, chez les sujets autistes, des troubles de perception de la prosodie au niveau sous-cortical [67].

Conclusions

Les PEA en réponse à un son de parole (PEASP) semblent être une technique prometteuse d’exploration audiologique de l’encodage de la parole par le tronc cérébral [36, 63, 78]. L’exploration de l’encodage des stimuli acoustiques complexes par le tronc cérébral est une étape essentielle à une meilleure compréhension et réhabilitation des processus à la base de l’audition normale et pathologique chez l’humain.

Références

[1]. Abrams DA, Nicol T, Zecker SG, Kraus N. Auditory brainstem timing predicts cerebral asymmetry for speech. J Neurosci 2006;26:11131-11137.

[2]. Aiken SJ, Picton TW. Envelope and spectral frequency-following responses to vowel sounds. Hear Res 2008;245:35-47.

[3]. Aiken SJ, Picton TW. Envelope following responses to natural vowels. Audiol Neurootol 2006;11:213-232.

[4]. Akhoun I, Gallego S, Moulin Aet al. The temporal relationship between speech auditory brainstem responses and the acoustic pattern of the phoneme /ba/ in normal-hearing adults. Clin Neurophysiol 2008;119:922-933.

[5]. Akhoun I, Moulin A, Jeanvoine Aet al. Speech auditory brainstem response (speech ABR) characteristics depending on recording conditions, and hearing status: an experimental parametric study. J Neurosci Methods 2008;175:196-205.

[6]. Banai K, Abrams D, Kraus N. Sensory-based learning disability: Insights from brainstem processing of speech sounds. Int J Audiol 2007;46:524-532.

[7]. Banai K, Nicol T, Zecker SG, Kraus N. Brainstem timing: implications for cortical processing and literacy. J Neurosci 2005;25:9850-9857.

[8]. Batra R, Kuwada S, Maher VL. The frequency-following response to continuous tones in humans. Hear Res 1986;21:167-177.

[9]. Biacabe B, Mom T, Avan P, Bonfils P. Anatomie fonctionnelle des voies auditives. Encycl Méd Chir (Elsevier, Paris), Oto-rhino-laryngologie, 20-022-A-10, 1999, 7p.

[10]. Cunningham J, Nicol T, King C, Zecker SG, Kraus N. Effects of noise and cue enhancement on neural responses to speech in auditory midbrain, thalamus and cortex. Hear Res 2002;169:97-111.

[11]. Cunningham J, Nicol T, Zecker SG, Bradlow A, Kraus N. Neurobiologic responses to speech in noise in children with learning problems: deficits and strategies for improvement. Clin Neurophysiol 2001;112:758-767.

[12]. Daly DM, Roeser RJ, Moushegian G. The frequency-following response in subjects with profound unilateral hearing loss. Electroencephalogr Clin Neurophysiol 1976;40:132-142.

[13]. Delgutte B. Representation of speech-like sounds in the discharge patterns of auditory-nerve fibers. J Acoust Soc Am 1980;68:843-857.

[14]. Delgutte B. Speech coding in the auditory nerve: II. Processing schemes for vowel-like sounds. J Acoust Soc Am 1984;75:879-886.

[15]. Dobie RA, Wilson MJ. A comparison of t test, F test, and coherence methods of detecting steady-state auditory-evoked potentials, distortion-product otoacoustic emissions, or other sinusoids. J Acoust Soc Am 1996;100:2236-2246.

[16]. Eggermont J. J. Auditory evoked potentials. principles and clinical applications., chapitre Electric and magnetic fields of synchronous neural activity: Peripheral and central origin of auditory evoked potentials., pages 1–30. Lippincott, Williams et Willkins. Burkard R, Don M, Eggermont JJ (Eds.), Philadelphia, Baltimore, New-York, London, Buenos-Aires, Hong-Kong, Sydney et Tokyo, 2007. 21, 36, 68, 90.

[17]. Faingold CL, Caspary DM. Frequency-following responses in primary auditory and reticular formation structures. Electroencephalogr Clin Neurophysiol 1979;47:12-20.

[18]. Galbraith GC, Amaya EM, de Rivera JMet al. Brain stem evoked response to forward and reversed speech in humans. Neuroreport 2004;15:2057-2060.

[19]. Galbraith GC, Arbagey PW, Branski R, Comerci N, Rector PM. Intelligible speech encoded in the human brain stem frequency-following response. Neuroreport 1995;6:2363-2367.

[20]. Galbraith GC, Bhuta SM, Choate AK, Kitahara JM, Mullen TA, Jr. Brain stem frequency-following response to dichotic vowels during attention. Neuroreport 1998;9:1889-1893.

[21]. Galbraith GC, Threadgill MR, Hemsley Jet al. Putative measure of peripheral and brainstem frequency-following in humans. Neurosci Lett 2000;292:123-127.

[22]. Gerken GM, Moushegian G, Stillman RD, Rupert AL. Human frequency-following responses to monaural and binaural stimuli. Electroencephalogr Clin Neurophysiol 1975;38:379-386.

[23]. Gnansia D, Jourdes V, Lorenzi C. Effect of masker modulation depth on speech masking release. Hear Res 2008;239:60-68.

[24]. Greenberg S, Marsh JT, Brown WS, Smith JC. Neural temporal coding of low pitch. I. Human frequency-following responses to complex tones. Hear Res 1987;25:91-114.

[25]. Guérit J.-M. In: Les potentiels évoqués. Editions Masson, Paris, 1993:92-103.

[26]. Habib M. et Robichon F. Dominance hémisphérique. Encycl Méd Chir. Elsevier, Paris; Neurologie, 17-022-C-10, 1998, p.8.

[27]. Hall J. W.. Auditory brainstem frequency following responses to waveform envelope periodicity. Science, vol. 205, no. 4412, pages 1297–1299, Sep 1979. 35, 88.

[28]. Hayes EA, Warrier CM, Nicol TG, Zecker SG, Kraus N. Neural plasticity following auditory training in children with learning problems. Clin Neurophysiol 2003;114:673-684.

[29]. Hoormann J, Falkenstein M, Hohnsbein J. Effect of selective attention on the latency of human frequency-following potentials. Neuroreport 1994;5:1609-1612.

[30]. Hornickel J, Skoe E, Kraus N. Subcortical Laterality of Speech Encoding. Audiol Neurootol 2008;14:198-207.

[31]. Hornickel J, Skoe E, Nicol T, Zecker S, Kraus N. Subcortical differentiation of stop consonants relates to reading and speech-in-noise perception. Proc Natl Acad Sci USA. 2009 Aug 4;106(31):13022-7.

[32]. Jewett DL, Romano MN, Williston JS. Human auditory evoked potentials: possible brain stem components detected on the scalp. Science 1970;167:1517-1518.

[33]. John MS, Dimitrijevic A, Picton TW. Auditory steady-state responses to exponential modulation envelopes. Ear Hear 2002;23:106-117.

[34]. Johnson KL, Nicol T, Zecker SG, Bradlow AR, Skoe E, Kraus N. Brainstem encoding of voiced consonant--vowel stop syllables. Clin Neurophysiol 2008;119:2623-2635.

[35]. Johnson KL, Nicol T, Zecker SG, Kraus N. Developmental plasticity in the human auditory brainstem. J Neurosci 2008;28:4000-4007.

[36]. Johnson KL, Nicol TG, Kraus N. Brain stem response to speech: a biological marker of auditory processing. Ear Hear 2005;26:424-434.

[37]. Johnson KL, Nicol TG, Zecker SG, Kraus N. Auditory brainstem correlates of perceptual timing deficits. J Cogn Neurosci 2007;19:376-385.

[38]. Joris PX, Schreiner CE, Rees A. Neural processing of amplitude-modulated sounds. Physiol Rev 2004;84:541-577.

[39]. Khalfa S, Veuillet E, Collet L. Influence of handedness on peripheral auditory asymmetry. Eur J Neurosci. 1998 Aug;10(8):2731-7.

[40]. King C, Warrier CM, Hayes E, Kraus N. Deficits in auditory brainstem pathway encoding of speech sounds in children with learning problems. Neurosci Lett 2002;319:111-115.

[41]. Kraus N, Bradlow AR, Cheatham MAet al. Consequences of neural asynchrony: a case of auditory neuropathy. J Assoc Res Otolaryngol 2000;1:33-45.

[42]. Krishnan A, Parkinson J. Human frequency-following response: representation of tonal sweeps. Audiol Neurootol 2000;5:312-321.

[43]. Krishnan A, Xu Y, Gandour J, Cariani P. Encoding of pitch in the human brainstem is sensitive to language experience. Brain Res Cogn Brain Res 2005;25:161-168.

[44]. Krishnan A, Xu Y, Gandour JT, Cariani PA. Human frequency-following response: representation of pitch contours in Chinese tones. Hear Res 2004;189:1-12.

[45]. Krishnan A. Human frequency-following responses: representation of steady-state synthetic vowels. Hear Res 2002;166:192-201.

[46]. Lee KM, Skoe E, Kraus N, Ashley R. Selective subcortical enhancement of musical intervals in musicians. J Neurosci 2009;29:5832-5840.

[47]. Liberman A.M., Cooper E.S., Shankweiler D.P. and Studdert-Kennedy M.. Perception of the speech code. Psychol. Rev. 1967;74:431-461.

[48]. Lorenzi C, Debruille L, Garnier S, Fleuriot P, Moore BC. Abnormal processing of temporal fine structure in speech for frequencies where absolute thresholds are normal. J Acoust Soc Am 2009;125:27-30.

[49]. Lorenzi C, Gilbert G, Carn H, Garnier S, Moore BC. Speech perception problems of the hearing impaired reflect inability to use temporal fine structure. Proc Natl Acad Sci USA 2006;103:18866-18869.

[50]. Marsh JT, Brown WS, Smith JC. Far-field recorded frequency-following responses: correlates of low pitch auditory perception in humans. Electroencephalogr Clin Neurophysiol 1975;38:113-119.

[51]. Marsh JT, Worden FG, Smith JC. Auditory frequency-following response: neural or artifact? Science 1970;169:1222-1223.

[52]. Menard M, Gallego S, Berger-Vachon C, Collet L, Thai-Van H. Relationship between loudness growth function and auditory steady-state response in normal-hearing subjects. Hear Res 2008;235:105-113.

[53]. Moore BC. The role of temporal fine structure processing in pitch perception, masking, and speech perception for normal-hearing and hearing-impaired people. J Assoc Res Otolaryngol 2008;9:399-406.

[54]. Morlet T, Ferber-Viart C, Putet G, Sevin F, Duclaux R. Auditory screening in high-risk pre-term and full-term neonates using transient evoked otoacoustic emissions and brainstem auditory evoked potentials. Int J Pediatr Otorhinolaryngol 1998;45:31-40.

[55]. Moushegian G, Rupert AL, Stillman RD. Laboratory note. Scalp-recorded early responses in man to frequencies in the speech range. Electroencephalogr Clin Neurophysiol 1973;35:665-667.

[56]. Musacchia G, Sams M, Nicol T, Kraus N. Seeing speech affects acoustic information processing in the human brainstem. Exp Brain Res 2006;168:1-10.

[57]. Musacchia G, Sams M, Skoe E, Kraus N. Musicians have enhanced subcortical auditory and audiovisual processing of speech and music. Proc Natl Acad Sci U S A 2007;104:15894-15898.

[58]. Musacchia G, Strait D, Kraus N. Relationships between behavior, brainstem and cortical encoding of seen and heard speech in musicians and non-musicians. Hear Res 2008;241:34-42.

[59]. Palmer A.et Shamma S. Physiological representations of speech. In: Springer handbook of auditory research (vol. 18). speech processing in the auditory system., p 150–200. Springer. Greenberg S, Ainsworth AW, Fay RR, Popper AN (Eds.), New-York, 2004. 2, 70, 166.

[60]. Perrot X, Ryvlin P, Isnard Jet al. Evidence for corticofugal modulation of peripheral auditory activity in humans. Cereb Cortex 2006;16:941-948.

[61]. Picton TW, John MS, Dimitrijevic A, Purcell D. Human auditory steady-state responses. Int J Audiol 2003;42:177-219.

[62]. Pratt H., Aminoff M., Nuwer M.R., Starr A. Potentiels évoqués auditifs de courte latence. Dans: Guide pratique de neurophysiologie clinique. Recommandations de la Fédération internationale de neurophysiologie clinique. scientifiques et médicales Elsevier SAS. ; 2002.p.95-110.

[63]. Purcell DW, John SM, Schneider BA, Picton TW. Human temporal auditory acuity as assessed by envelope following responses. J Acoust Soc Am 2004;116:3581-3593.

[64]. Rance G, Dowell RC, Rickards FW, Beer DE, Clark GM. Steady-state evoked potential and behavioral hearing thresholds in a group of children with absent click-evoked auditory brain stem response. Ear Hear 1998;19:48-61.

[65]. Russo N, Nicol T, Musacchia G, Kraus N. Brainstem responses to speech syllables. Clin Neurophysiol 2004;115:2021-2030.

[66]. Russo NM, Nicol TG, Zecker SG, Hayes EA, Kraus N. Auditory training improves neural timing in the human brainstem. Behav Brain Res 2005;156:95-103.

[67]. Russo NM, Skoe E, Trommer Bet al. Deficient brainstem encoding of pitch in children with Autism Spectrum Disorders. Clin Neurophysiol 2008;119:1720-1731.

[68]. Shannon RV. The relative importance of amplitude, temporal, and spectral cues for cochlear implant processor design. Am J Audiol 2002;11:124-127.

[79]. Skoe E, Kraus N. Auditory Brain Stem Response to complex sounds: a tutorial. Ear & Hearing, vol. 31, NO.3, in press.

[70]. Smith JC, Marsh JT, Brown WS. Far-field recorded frequency-following responses: evidence for the locus of brainstem sources. Electroencephalogr Clin Neurophysiol 1975;39:465-472.

[71]. Sohmer H, Pratt H, Kinarti R. Sources of frequency following responses (FFR) in man. Electroencephalogr Clin Neurophysiol 1977;42:656-664.

[72]. Song JH, Banai K, Kraus N. Brainstem timing deficits in children with learning impairment may result from corticofugal origins. Audiol Neurootol 2008;13:335-344.

[73]. Song JH, Banai K, Russo NM, Kraus N. On the relationship between speech- and nonspeech-evoked auditory brainstem responses. Audiol Neurootol 2006;11:233-241.

[74]. Song JH, Skoe E, Wong PC, Kraus N. Plasticity in the adult human auditory brainstem following short-term linguistic training. J Cogn Neurosci 2008;20:1892-1902.

[75]. Strait DL, Kraus N, Skoe E, Ashley R. Musical experience and neural efficiency: effects of training on subcortical processing of vocal expressions of emotion. Eur J Neurosci 2009;29:661-668.

[76]. Suga N. Role of corticofugal feedback in hearing. J Comp Physiol A Neuroethol Sens Neural Behav Physiol. 2008 Feb;194(2):169-83.

[77]. Wever EG, Bray CW. Action Currents in the Auditory Nerve in Response to Acoustical Stimulation. Proc Natl Acad Sci U S A 1930;16:344-350.

[78]. Wible B, Nicol T, Kraus N. Atypical brainstem representation of onset and formant structure of speech sounds in children with language-based learning problems. Biol Psychol 2004;67:299-317.

[79]. Wible B, Nicol T, Kraus N. Correlation between brainstem and cortical auditory processes in normal and language-impaired children. Brain 2005;128:417-423.

[80]. Wong PC, Skoe E, Russo NM, Dees T, Kraus N. Musical experience shapes human brainstem encoding of linguistic pitch patterns. Nat Neurosci 2007;10:420-422.

[81]. Worden FG, Marsh JT. Frequency-following (microphonic-like) neural responses evoked by sound. Electroencephalogr Clin Neurophysiol 1968;25:42-52.

[82]. Ziegler JC, Pech-Georgel C, George F, Alario FX, Lorenzi C. Deficits in speech perception predict language learning impairment. Proc Natl Acad Sci U S A 2005;102:14110-14115.

[83]. Zurek PM. Detectability of transient and sinusoidal otoacoustic emissions. Ear Hear 1992;13:307-310.

Légendes des tableaux et figures

Tableau 1 et 1 bis

Revue méthodologique des PEASP. Détail des paramètres de stimulation et de recueil de réponses de type PEASP (ou speech ABR) chez l’humain, utilisés par les principales équipes:

Tableau 1

Colonne 1: Numérotation signalée entre crochets, se rapportant à la référence (Ref) de l’article. Classement chronologique. Colonne 2 : Sujets : caractéristiques et nombre : A=adulte, E=enfants, ASD= enfant présentant un syndrome autistique, mu= musicien, mua= musicien amateur, Na= sans problème d’apprentissage, NE= normo-entendant, nmu= non musicien, Pa= problèmes d’apprentissage, SNu = surdité neurosensorielle unilatérale. Colonne 3: Placement des électrodes : C= cervical, C7= 7 ième vertèbre cervicale, cae= conduit auditif externe, cz= vertex, f= front, lob d= lobe droit, lob g=lobe gauche, (m)= masse, ma= mastoïde. Colonne 4: Caractéristiques du filtre (F) utilisé : oct=octave,

Tableau 1 bis:

Colonne 1 : Numérotation signalée entre crochets, se rapportant à la référence (Ref) de l’article. Colonne 2 : Caractéristiques du stimulus audiologique utilisé. -Type de stimulus utilisé: F0= fréquence fondamentale; -Type de présentation du stimulus au sujet: B=binaural, BB= bruit blanc, cae= conduit auditif externe, d= droit, g= gauche, I= image, M= monaural, OD= oreille droite, OG= oreille gauche, PA= polarité alternée, S=son à 40 dB SPL, Vi= vidéo. -Fenêtre d’enregistrement (FE): ms= milliseconde, -Durée du stimulus (D) utilisé en millisecondes, -Nombre de réponses moyennées (Mn) pour chaque enregistrement, -Fréquence de récurrence (FR) de la stimulation par seconde, -Intensité de la stimulation envoyée au sujet: = dB HL (hearing level), □= dB SL (sensitive level), = dB SPL (sound pressure level).

Figures:

Figure 1: Système de recueil des PEASP (PEA en réponse à un son de parole).

L’ensemble des enregistrements est effectué dans une cage de Faraday reliée à la masse. Le stimulus est envoyé par l’ordinateur portable et la carte son externe via les inserts jusqu’au sujet dont l’activité électroencéphalographique est recueillie par des électrodes cutanées. Les électrodes cutanées sont placées sur le vertex (électrode positive), le front (masse) et au niveau de chaque mastoïde. L’enregistrement de cette activité est réalisé par un système de recueil de potentiels évoqués auditifs précoces (ici le « centor USB ®  »), avec un déclencheur (trigger) externe permettant la synchronisation du recueil sur le stimulus.

Figure 2: PEASP en réponse à un /ba/:

a: Représentations temporelles du stimulus /ba/ et du PEASP obtenu en réponse à ce stimulus: Représentation temporelle de l’enveloppe d’un stimulus /ba/ de 80 millisecondes ; Représentation de l’enveloppe retournée du même stimulus /ba/ ; ▲ L’enveloppe retournée est décalée de 9 millisecondes, ceci permettant d’observer une synchronicité avec la trace PEASP ; ■ Représentation temporelle de la réponse PEASP. Cette réponse peut être divisée en différentes parties (Figure 3 a, b): - la première partie est représentée par « l’Onset Response » (ondes V-A), réponse transitoire, encodant les variations temporelles rapides inhérentes à la consonne, similaire à la réponse observée à un click et apparaissant approximativement entre 7 et 9 ms après le début du stimulus. -la seconde partie: réponse soutenue à la fréquence, ou « Frequency Following Response » (FFR). La périodicité des pics de cette phase correspond à l’information fréquentielle contenue dans le stimulus [65]. La période entre les pics C, D, E, F de la FFR (activité de phase-locking) correspond a la fréquence fondamentale du stimulus (F0), tandis que les pics entre les ondes C, D, E, F représentent l’activité de calage de phase à la fréquence du premier formant F1 [6]. Une dernière onde apparaît ensuite: l’onde O qui correspond à l’arrêt du son, et temporellement à l’offset du stimulus [36].

b: Représentation spectrale d’une réponse PEASP en réponse à un stimulus /ba/: Le stimulus /ba/ de 80 millisecondes est représenté en gris pâle. La réponse spectrale du PEASP est représentée en gris foncé. Cette représentation en fonction de la fréquence permet d’observer une corrélation spectrale au niveau de deux pics F0 et F1. Ces deux pics correspondent à la fréquence fondamentale et à la fréquence du premier formant de ce même stimulus.

Figure 3: Modélisation de l’effet des différents transducteurs sur l’artéfact électromagnétique.

Seuil d’intensité (en dB SPL), en fonction de la fréquence (Hz), pour lequel un artéfact électromagnétique est apparu, dans des conditions réelles (Z=1 kΩ), pour différents types de transducteurs. La condition expérimentale « inserts non blindés » présente le plus d’artéfacts quelle que soit la fréquence observée, alors que l’utilisation de ces mêmes inserts reliés à une cage de Faraday permet une diminution de l’artéfact qui s’accentue de manière significative lorsque la cage de Faraday est reliée à la masse. Concernant l’utilisation des casques, le casque TDH 39 présente moins d’artéfact que le Sennheiser Linear 250. Ainsi la condition expérimentale présentant le moins d’artéfact est obtenue lors de l’utilisation d’inserts reliés à une cage de Faraday, elle-même reliée à la masse.

Tableau 1 :
Tableau 1 :
Tableau 1 :
Tableau 1 :
Tableau 1 bis :
Tableau 1 bis :

Characteristics of Speech ABR obtained at low stimulation levels.

C. Richard*, A. Jeanvoine*, H. Thai-Van*, A. Moulin*.

*Manuscrit en préparation.

Abstract

Speech auditory brainstem responses (SABR) are a very promising tool for investigating a wide range of speech perception and language impairments, as it represents a unique objective, non-invasive means of auditory brainstem timing exploration in humans. However, such SABR responses are very sensitive to parameters changes. The present study analysed systematic changes in both onset responses (OR) and Frequency Following Responses of SABR and click evoked ABR (CABR) as a function of stimulation intensity. The latency intensity functions showed a variation of 0.6 ms per 10 dB for CABR, more than 1 ms per 10 dB for OR, and between 0.7 and 1 ms per 10 dB for the different peaks of the FFR. The threshold allowing to record SABR in normally hearing subjects was 20 dB SL. At moderate intensities (20 to 30 dB SL), the representation of SABR was bilateral (with a monaural stimulation), and the SABR response increased it amplitude linearly with the stimulation intensity for the stimulated side. The neural synchronisation on the fundamental frequency of the BA stimulus (F0) showed a non-monotonic behaviour as a function of stimulation intensity.

Introduction

Speech auditory brainstem responses (SABR) are a promising tool for specific language impairments (King et al., 2002; Song et al., 2008), speech in noise perception deficits (Anderson et al., 2010) or monitoring the effects of auditory training (Russo et al., 2005; Song et al., 2008). They are neurophysiological responses to natural syllables (such as /da/ (Skoe et al., 2010), or /ba/ Akhoun et al., 2009), that are composed of two main parts: the onset response (waves V-A), and a sustained event: the frequency following response (FFR). The onset response is often likened to wave V of the click evoked ABR, and corresponds to the beginning portion of the consonant, whereas, the FFR is synchronized to the periodicity of the sound reflecting the neural phase-locking (Chandrasekaran et al., 2010). SABR represent therefore an objective, non-invasive technique of auditory temporal coding exploration in the brainstem in humans.

The majority of studies dealing with SABR use quite high stimulus intensities (60 to 85 dB SPL). This ensures good signal to noise ratio in the recorded SABR, and clear individual responses. In addition, in normally hearing subjects, such levels are high enough above the hearing thresholds, so that the inherent variability in hearing thresholds (within the normal hearing range) is unlikely to affect the SABR. On the other hand, it is possible that lower stimulus intensities might be more sensitive to minute changes in brainstem processing, and might be more relevant to day to day speech perception difficulties, that occur for moderate intensities. In addition, recording SABR in subjects with hearing losses can be a problem: increasing the stimuli levels can lead to artefactual responses. Indeed, due to the strong similarity between the SABR waveform, and the acoustic stimulus pattern, high levels (above 100 dB SPL) can lead to electromagnetic leakage and artefactual responses, even when using shielded insert earphones (Akhoun et al., 2008). In addition, for moderate hearing losses, 80 dB SPL stimulus levels can be as low as 30 dB SL. Characterising SABR pattern as a function of stimulus intensity seems a prerequisite before attempting to evaluate Speech Processing in hearing impaired individuals, if only to determine the minimum threshold likely to yield a speech ABR response. Although in most studies, normal-hearing subjects are defined as having a hearing threshold of 20 dB HL or less at octave frequencies between 250 and 8 kHz, a lot of differences, within this hearing threshold range, can be observed in more sensitive measures of cochlear function, such as otoacoustic emissions. Dhar et al. (2009) tried to correlates cochlear status, in normally hearing subjects, with speech ABR characteristics : they observed a correlation between the SABR harmonics (especially f1) and the strength of distortion acoustic otoacoustic emissions (DPOAEs), with greater harmonics in ears showing high levels DPOAEs, i.e. healthier ears. Even in normally hearing subjects, small differences in cochlear status can account with variations in the speech ABR response. It is therefore very likely, that speech ABR would be very sensitive to changes in stimulation intensity. The latencies of the FFR and OR as a function of stimulus intensity show a different relation, accounting for differences in generation mechanisms (Akhoun et al. 2008). Although the OR is often likened to the peak V of CABR, several differences between both responses have been pointed out. First, as the OR is elicited by more ecological stimuli (such as syllables) rather than a click, one can hypotheses that the OR would be more susceptible to minute differences in auditory processing capabilities than wave V of the ABR. This has been confirmed by several studies, pointing out latency differences in OR in groups of children with learning disabilities, without any differences observed in wave V. Furthermore, a weak correlation has been observed between wave V latency and OR latency (Song et al., 2006). The aim of the present study is to systematically characterize speech ABR in response to a french /ba/ (both OR and FFR), as a function of stimulation intensity, and to compare it with click evoked ABR behavior in the same subjects.

Materials and methods

1. Subjects:

Ten native-French-speaking adults, ranging in age from 18 to 30 years, participated in the study. Audiometric pure-tone thresholds were not greater than 15 dB HL (Audiometer AC 40®) at half-octave frequencies from 250 Hz to 8000 Hz. All subjects were free of any otologic disease. Peripheral right laterality of each participant was assessed by the Edinburgh’s test. This study was carried out in accordance with the French Huriet act pertaining to biomedical research, with the agreement of the local Ethics Committee on Biomedical Research of South-East region, France (CCPPRB # 05-024). Informed written consent was obtained for each participant.

2. Brainstem recording and stimuli:

2.a.Click Auditory Brainstem Responses (ABR):

The stimulus was a gated train of biphasic 80 µs click, presented at a rate of 20 pulses per second. Stimulation was monaural on the right ear, with intensities ranging from 0 to 60 dB HL in a random order, and 2000 clicks were averaged for each trace. Stimulus presentation and recordings were performed in a sound proof room, using a Centor° USB system (Racia-Alvar®) ABR recording system. Click evoked ABR were recorded using four twined silver electrodes placed between vertex (+), left and right mastoid, with forehead as ground (Galbraith et al., 2000). Electrode impedances were maintained below 5 kΩ.

2.b. Speech Auditory Brainstem Responses:

Speech auditory brainstem responses were collected during the same session as the CABR, using the same setup as for the CABR recording, and the same electrode placement.

The stimulus was a 100 ms long natural /ba/syllable, with a voice onset time of 55 ms for the /b/. Individual thresholds for the BA stimulus were obtained from each subject using a transformed up/down procedure, with the psychoacoustics toolbox developed by M. Grassi (Grassi et al., 2009), using the same setup as for the SABR stimulation. The stimuli intensities ranged from 0 dB SL up to 50 dB SL by 10 dB steps, with an additional recording at 46 dB SL. All the different intensities were presented at random. For all subjects, stimuli were presented by a PC-based stimulus delivery system that output the signal through an external sound card (Roland®, UA4FX) which permits to control the timing and the intensity of stimulus delivery and also trigged the PC-based evoked potentials averaging system. Then, stimuli were delivered, with alternating polarity, monaurally through insert earphones (Etymotic Research ER-3A) to the right ear of the subject. The repetition rate used was 5Hz, and ten ms of silence was recorded before the beginning of the sound in order to assess the ambient noise level. The order of test conditions was randomized both within and across subjects.

Two thousand and four hundred epochs (alternating polarity) were averaged, with a 150 ms analysis window (sampling frequency =13.3kHz). Speech ABRs were filtered online by an 80–3200 Hz bandpass Finite Impulse Response filter (order 2). Each epoch with amplitude greater than 75 µV was discarded. The ambient noise was assessed by calculating root-means square (RMS) for the whole signal divided by RMS obtained for the silence period before averaging.

3. Data analysis:

The latencies of waves III and V of the CABR were visually obtained by two independent observers. Similarly, the characteristic peaks of the response to /ba/ (Onset response and the different peaks of the FFR) were manually identified first on the grand-average of traces and then on each individual traces, by two independent observers, both blind to the condition of presentation.

Analysis was carried out on both grand-average curves (algebraic summation of the individual data on alternate polarity) and individual traces. RMS values were obtained for the FFR part, in order to assess the influence of stimulation intensity. Fast Fourier Transform was calculated on the FFR part, on a 30 ms window, in order to assess the amplitude of the fundamental frequency representation on the FFR (F0). The FFR was carried out on the full traces using a sliding window, with 1 ms lag, in order to characterize the synchronisation of F0 as a function of the stimulus intensity, and as a function of time. In addition, to see if there was a difference between the beginning of the FFR and the end, we analyzed the FFR in two 15ms bins, termed the first part and end part respectively.

Results

1.Latencies:

Fig. 1a,b shows the stimulus used and all the traces obtained for stimulus intensities ranging from 50 dB SL down to 0 dB SL. The onset response, and the different waves of the FFR have been labeled.

The OR latencies increased significantly from 6.3 ms at 50 dB SL to 9 ms at 30 dB SL, as did the cABR wave V, rising from 7.3 ms at 50 dB SL to 8.85 at 30 dB SL. Fig. 2 compares cABR latencies with SABR OR latencies and SABR FFR latencies in the same subjects, as a function of stimulus intensity in dB SL.

The slope of onset response as a function of stimulus intensity was calculated for each subject for intensities ranging from 30 dB SL to 50 dB SL. The average slope was -1.03 ms for 10 dB increase in intensity (sem=0.48). This was performed on 9 subjects (subject 7 was eliminated because of no visible onset response at 30 and 40 dB SL). For the same subjects, slopes of CABR functions were calculated, with an average of 0.57 ms increase (sem=0.04) per 10 dB decrease (fig. 2). No significant differences were obtained between the speechABR onset response slope and cABR slope with wave V and wave III, due to significantly greater variability in SABR latencies versus CABR latencies. No significant correlations were obtained between speechABR OR slope and cABR slope as function of stimulation intensity.

FFR latencies were obtained for each peak, labeled from B to J, and decreased significantly with increasing stimulus intensity. The slopes tended to get lower for the later waves: it ranged from 1.24 ms decrease per 10 dB increase (wave C) to 0.73 ms decrease per 10 dB increase (wave G), but no significant difference has been found.

2. FFR characteristics analysis

2a. RMS values of the FFR

FFR amplitude (RMS values) increased significantly with intensity, especially for intensities above 30 dB SL. A linear model was fitted, and revealed a highly significant effect of the intensity (F(1,140)=51.8, p<0.0001), with an interaction with the channel (F(1,140)=7.1, p<0.01). Similar highly significant effects of stimulation intensity on theFFR RMS amplitude was observed for the first and last part of the FFR. The difference between the right and left channels increased with stimulation intensity (anova, F(1,114)=19.9, p<0.0001). (fig. 3). However, this difference didn’t change significantly whether only the first part of the FFR or the last part of the FFR was considered. The right channel revealed significantly greater FFR for stimulation intensities above 40 dB SL, whereas left channel showed a constant FFR across intensities from 30 dB SL.

2b. Fundamental frequency of the FFR.

Spectral analysis of the FFR showed a clear F0 peak at 205 Hz, that increased significantly with stimulation intensity F(1,114)=49.7, p<0.0001, with a significant interaction with the channel involved (F(1,114)=13.3, p<0.0005) (fig. 4). The right channel showed an almost linear increase of f0 with stimulation intensity, whereas left channel showed a fairly constant level from 20 dB SL. There was a very strong interaction between intensity and channel (F(1,236)=18.5, p<0.0001 ).

A significant differential effect of stimulation intensity on F0 was revealed between the first and the last part of the FFR : F(1,236)=5.4, p<0.03) with the end part being significantly greater than the beginning part (fig. 5), especially for mid-intensity range (20 to 30 dB SL).

2c. Time/Frequency structure of the FFR

As expected, spectrograms of the full traces revealed the greatest amplitude for a frequency band of 200-232 Hz (corresponding to the fundamental frequency F0 of the /BA/ stimulus), and for a time slice corresponding to the FFR. Analysis of the frequency band over time, for different stimulation intensities, showed different behavior depending on intensity. (fig. 6a). The maximum amplitude value over the frequency band increased significantly with intensity (F(1,140)=44.5, p<0.0001), especially for intensities above 40 dB SL, with a significant interaction with the channels: the left channel showed a fairly constant maximum value over the intensities over 20 dB SL (fig. 6b). The surface under the curve revealed similar results (fig. 6c). The Q value, calculated as the ratio of the maximum value over the duration of the FFR, showed a significant increase with intensity, suggesting that the duration of the frequency band corresponding to F0 doesn’t increase with intensity: the amplitude of the frequency band alone increases.

Discussion

Grand-average data show a clear SABR for stimulus levels as low as 20 dB SL, but the occurrence of individual responses starts usually at 40 dB SL. Contrary to expectation, the left channel showed a remaining SABR response at 10 dB SL and 0 dB SL, whereas the same levels didn’t show any obvious response on the right channel. Similarly, analysis of energy of the FFR as a function of stimulus levels, showed an almost linear increase of the FFR amplitude with stimulus levels for the right channel. At moderate stimulus levels (20 to 30 dB SL), both right and left channels showed a similar response, whereas the stimuli were strictly monaural. As stimulus intensity went beyond 30 dB SL, the FFR amplitude recorded with the right channel continued to increase, whereas the FFR recorded with the left channel remained constant, ruling out the effect of a transcranial transfer of the stimuli that could occur for 50 dB SL. Besides, the levels of the stimuli used (maximum of 50 dB SL), and the fact that we used insert ear-phones, allows to rule out the hypothesis of a transcranial transfer from the right to the left ear. Frequency analysis of the FFR, and the amplitude of F0, showed a similar pattern, with a bilateral representation of F0 for moderate stimulus levels (20 to 30 dB SL), and a mostly unilateral representation of F0 for higher levels. It seems that auditory temporal processing is optimized at moderate stimulus levels, by recruiting both left and right auditory brainstem pathways even with a strictly monaural stimulation. For higher levels, such as those used in most SABR studies, the side of the stimulation is privileged, whereas the contralateral side shows some constant response, which is still greater than the response obtained at 0 dB SL.

Temporal analysis of the FFR showed a different behavior of the FFR with stimulus intensity, whether the first part or the last part of the FFR is considered: for moderate stimulus levels (20 to 30 dB SL), the neural synchrony on the fundamental frequency of the /BA/ is weaker on the first part than on the last part of the FFR, where at greater stimulus levels, no difference is obtained. It is possible that, at moderate stimulus levels, the auditory pathways requires some more time to fully synchronize on F0. Investigating in a more precise manner, the timing of the F0 synchronization along the FFR, at moderate stimulus level, could perhaps yield some explanation on differences in brainstem auditory timing deficits in specific language impairments. The pattern of the time/frequency analysis of the encoding of the frequency band encompassing F0, showed a non-monotonic behavior with stimulus intensity, with 3 parts: a first part, with very little response (from 0 to 10 dB SL), a part with moderate response (20 to 40 dB SL), and a final part with higher responses (46 and 50 dB SL). Moderate stimulus levels (20 and 30 dB SL) showed greater F0 amplitude at mid-FFR, whereas, as stimulation intensity increases, the pattern widens towards both earlier and later parts of the FFR. This extension of the synchronization along the FFR with stimulus levels, is accompanied by an increase in the strength of synchronization, so that the selectivity, in time, of the synchronization, is greater at high stimulus levels.

Due to those different thresholds, (i.e. 20 dB SL to obtain a SABR response, 46 dB SL to obtain a “fully formed” SABR), individual thresholds will have to be taken into account, especially when investigating subjects with moderate hearing losses. Furthermore, as a link between sensitive measures of the cochlea status (by means of otoacoustic emissions) and SABR has been shown (Dhar et al., 2009), it is likely that cochlea status has a substantial influence on SABR recorded with moderate stimulus levels.

In addition to different patterns of FFR according to stimulus levels, the present study shows a definite difference between cABR wave V and OR modifications as a function of stimulation intensity, with a variation of more than 1 ms per 10 dB for the OR, versus only 0.57 for the cABR. The different peaks of the FFR show different latencies, with a slope that tend to decrease for the latest peaks. As pointed out by other several studies for a fixed stimulation level, the SABR onset response cannot be considered like a CABR wave V, and is more prone to changes with stimulus intensity than CABR. This is another argument for carefully monitoring at which stimulus level SABR should be recorded. SABR seems to be generally more sensitive to parameters changes than CABR: for instance, the stimulus rate is known to affect more SABR than CABR (Krizman et al., 2010). Although SABR is a very promising technique for exploration of brainstem auditory timing, much work is needed for carefully validating a set of parameters, across different languages.

References:

Akhoun I, Gallego S, Moulin Aet al (2008). The temporal relationship between speech auditory brainstem responses and the acoustic pattern of the phoneme /ba/ in normal-hearing adults. Clin Neurophysiol;119:922-933.

Akhoun I, Moulin A, Jeanvoine A et al. Speech auditory brainstem response (speech ABR) characteristics depending on recording conditions, and hearing status: an experimental parametric study (2008). J Neurosci Methods;175:196-205.

Anderson S, Skoe E, Chandrasekaran B, Kraus N. Neural timing is linked to speech perception in noise (2010). J Neurosci;30:4922-4926.

Chandrasekaran B, Kraus N. The scalp-recorded brainstem response to speech: neural origins and plasticity (2010). Psychophysiology;47:236-246.

Galbraith GC, Threadgill MR, Hemsley Jet al. Putative measure of peripheral and brainstem frequency-following in humans. Neurosci Lett 2000;292:123-127.

Grassi M, Sorenzo A, Borgo M (2010) Psychoacoustics: a comprehensive MATLAB toolbox for auditory testing. Behavior Research Methods.

Hornickel J, Skoe E, Nicol T, Zecker S, Kraus N (2009). Subcortical differentiation of stop consonants relates to reading and speech-in-noise perception. Proc Natl Acad Sci USA. Aug 4;106(31):13022-7.

King C, Warrier CM, Hayes E, Kraus N, (2002). Deficits in auditory brainstem pathway encoding of speech sounds in children with learning problems. Neurosci Lett;319:111-115.

Kraus N, McGee TJ, Koch DB. Speech sound representation, perception, and plasticity: a neurophysiologic perceptive. Audiol Neurootol 1998;3:168-182.

Krizman J, Skoe E, Kraus N (2010) Stimulus Rate and Subcortical Auditory Processing of Speech. Audiology and Neurotology, 15, 332-342.

Moushegian G, Rupert AL, Stillman RD. Laboratory note. Scalp-recorded early responses in man to frequencies in the speech range. Electroencephalogr Clin Neurophysiol 1973;35:665-667.

Russo N, Nicol T, Musacchia G, Kraus N, (2004). Brainstem responses to speech syllables. Clin Neurophysiol;115:2021-2030.

Russo NM, Nicol TG, Zecker SG, Hayes EA, Kraus N. (2005) Auditory training improves neural timing in the human brainstem. Behav Brain Res. ; 156(1):95-103.

Russo NM, Skoe E, Trommer Bet al, (2008). Deficient brainstem encoding of pitch in children with Autism Spectrum Disorders. Clin Neurophysiol;119:1720-1731.

Sinnott JM, Adams FS. Differences in human and monkey sensitivity to acoustic cues underlying voicing contrasts. J Acoust Soc Am 1987;82:1539-1547.

Skoe E, Kraus N, (2010). Auditory Brain Stem Response to complex sounds: a tutorial. Ear & Hearing, vol. 31, NO.3.

Song JH, Banai K, Russo NM, Kraus N, (2006). On the relationship between speech- and nonspeech-evoked auditory brainstem responses. Audiol Neurootol;11:233-241.

Song JH, Skoe E, Wong PC, Kraus N, (2008). Plasticity in the adult human auditory brainstem following short-term linguistic training. J Cogn Neurosci;20:1892-1902.

Steinschneider M, Schroeder CE, Arezzo JC, Vaughan HG, Jr. Speech-evoked activity in primary auditory cortex: effects of voice onset time. Electroencephalogr Clin Neurophysiol 1994;92:30-43.

Fig. 1a and b: Grand-average traces of speech ABR recorded in 10 normally hearing subjects. The two top traces represent the /ba/ stimulus and its envelope. The SABR are ordered by stimulation intensities, from top to bottom. The stimulation was monaural (right ear), and the traces have been recorded on the right channel (fig. 1a) and on the left channel (fig. 1b).
Fig. 1a and b: Grand-average traces of speech ABR recorded in 10 normally hearing subjects. The two top traces represent the /ba/ stimulus and its envelope. The SABR are ordered by stimulation intensities, from top to bottom. The stimulation was monaural (right ear), and the traces have been recorded on the right channel (fig. 1a) and on the left channel (fig. 1b).
Fig. 2 : Latencies of Auditory brainstem responses (ABR) in ms as a function of stimulation intensity (dB SL). The white symbols show click evoked ABR (CABR) latencies, with squares for wave V and dots for wave III. Grey and black symbols are for speech ABR latencies, for Onset response and wave C of the FFR respectively.
Fig. 2 : Latencies of Auditory brainstem responses (ABR) in ms as a function of stimulation intensity (dB SL). The white symbols show click evoked ABR (CABR) latencies, with squares for wave V and dots for wave III. Grey and black symbols are for speech ABR latencies, for Onset response and wave C of the FFR respectively.
Fig. 3 Root Mean Square value (µV) of the Frequency Following Response (FFR) as a function of stimulus intensity (dB SL), in response of a stimulus /BA/ of 120 ms duration. The stimulus was applied in the right ear, and the speech ABR was recorded using the right channel (black dots), and the left channel (white dots).
Fig. 3 Root Mean Square value (µV) of the Frequency Following Response (FFR) as a function of stimulus intensity (dB SL), in response of a stimulus /BA/ of 120 ms duration. The stimulus was applied in the right ear, and the speech ABR was recorded using the right channel (black dots), and the left channel (white dots).
Fig.4: Fo peak amplitude (on the FFT of the FFR), corresponding to the fundamental frequency of the /ba/ stimulus, as a function of stimulus intensity in dB SL. The stimulus was applied in the right ear, and the speech ABR was recorded using the right channel (black dots), and the left channel (white dots).
Fig.4: Fo peak amplitude (on the FFT of the FFR), corresponding to the fundamental frequency of the /ba/ stimulus, as a function of stimulus intensity in dB SL. The stimulus was applied in the right ear, and the speech ABR was recorded using the right channel (black dots), and the left channel (white dots).
Fig.5: Fo peak amplitude (on the FFT of the FFR), corresponding to the fundamental frequency of the /ba/ stimulus, as a function of stimulus intensity in dB SL. The stimulus was applied monaurally to the right ear. F0 amplitude was calculated on the first part of the FFR (dots) and on the second part of the FFR (triangle), with statistically significant differences for mid-intensity range.
Fig.5: Fo peak amplitude (on the FFT of the FFR), corresponding to the fundamental frequency of the /ba/ stimulus, as a function of stimulus intensity in dB SL. The stimulus was applied monaurally to the right ear. F0 amplitude was calculated on the first part of the FFR (dots) and on the second part of the FFR (triangle), with statistically significant differences for mid-intensity range.
Fig. 6: Panel (a ) shows the amplitude of the 200-232 Hz frequency band as a function of time, for the different stimulus intensities. Panel (b) shows the maximum of the function described in a, as a function of stimulus intensity, whereas panel (c) shows the surface under the curves shown in panel (a). Panel (d) shows the “Q values” obtained from the curves in panel (a), and calculated as the ratio of the maximum value divided by the duration over which the frequency band was greater than 50% of the maximum value.
Fig. 6: Panel (a ) shows the amplitude of the 200-232 Hz frequency band as a function of time, for the different stimulus intensities. Panel (b) shows the maximum of the function described in a, as a function of stimulus intensity, whereas panel (c) shows the surface under the curves shown in panel (a). Panel (d) shows the “Q values” obtained from the curves in panel (a), and calculated as the ratio of the maximum value divided by the duration over which the frequency band was greater than 50% of the maximum value.