4. Propriétés du système auditif :

4.1. L’encodage temporel et spectral des sons par le système auditif :

Dans la plupart des situations naturelles d'écoute, un ensemble de sons, provenant de différentes personnes constituant une scène auditive, parviennent simultanément à nos oreilles. En général, nous parvenons assez aisément à isoler, identifier les différentes sources sonores en présence, ainsi que le genre des locuteurs, en dépit de leur enchevêtrement au niveau acoustique. Les mécanismes qui président à cette "analyse" des scènes sonores complexes par le système auditif humain font l'objet d'un intérêt croissant depuis plusieurs années (voir Bregman, 1990, pour une revue). Les mécanismes mis en œuvre font appel, notamment, à l’exploitation des informations contenues aussi bien dans le domaine temporel (les fluctuations d'amplitude ou d'enveloppe des sons) que dans le domaine spectral, dans le but d'analyser les scènes sonores complexes.

Le spectre d’un son est un indice essentiel à l’identification de la source sonore (voix/instrument) et notamment à la reconnaissance des voyelles. L’analyse spectrale (ou fréquentielle) d’un son dépend en grande partie du filtrage de la cochlée. Ainsi, quel que soit le son complexe, que ce soit le son d’un instrument de musique ou une voyelle, celui-ci va subir cette analyse dès les premières étapes du traitement auditif. La cochlée fonctionne comme un ensemble de filtres passe-bandes ayant des fréquences centrales allant des basses fréquences (20 Hz) jusqu'aux hautes fréquences (20000 Hz), la largeur de ces filtres, conditionnant le degré de précision de l'analyse fréquentielle du signal par la cochlée. En effet, la largeur de ces filtres augmente en fonction de leur fréquence centrale, ainsi, l'analyse spectrale se dégrade dans les hautes fréquences (Grimault et al, 2000).

Le code temporel intervient en complément du code spectral : dans chaque noyau du système auditif, certaines cellules ont la capacité de synchroniser leur cadence de décharge de potentiels d’action sur la périodicité du stimulus : c’est le principe du « calage de phase » (appelé « phase-locking » dans la littérature). Aux fréquences inférieures à 4-5 kHz, les décharges des neurones sont synchronisées sur une phase particulière de l’onde de pression incidente. Cela permet au système auditif d’encoder assez précisément la période, et donc la fréquence du stimulus. En effet, même si la période réfractaire des neurones auditifs ne leur permet pas d’émettre un potentiel d’action à chaque cycle, les intervalles inter-décharges sont des multiples entiers de la période. Ce phénomène dit de phase-locking débute dès la sortie de la cochlée et se répercute tout le long des voies auditives afférentes en se limitant à des fréquences de plus en plus basses au fur et à mesure que le message nerveux est intégré. On cite les valeurs limites de 4 kHz dans le nerf auditif, 1 kHz dans le noyau cochléaire, 300 Hz dans le colliculus inférieur, 200 Hz dans le corps genouillé médian du thalamus et en dessous de 80 Hz dans le cortex auditif.Il est intéressant de noter que le mode de synchronisation change au niveau du colliculus inférieur, qui est par ailleurs le noyau de convergence des voies auditives périphériques bilatérales. Le rôle du codage temporel reste à préciser, même s’il semble intuitif dans le sens où il renforcerait l’encodage cochléaire spatial (dérivé de la tonotopie cochléaire) pour certains sons basse-fréquence (les plus utiles pour la communication humaine et les vocalisations animales). Pour des revues neurophysiologiques complètes sur le code temporel, voir Eggermont (2001), Joris et al, (2004).

Mettre en évidence ces deux types de codage reste le sujet de nombreux travaux, notamment par l’utilisation de l’imagerie par résonnance magnétique fonctionnelle (IRMf). Cette technique a permis de montrer l’existence de schémas visant à recoder temporellement le signal dès le noyau cochléaire et ce, jusqu’au cortex auditif (Griffiths, 2003 ; Kumar et al, 2007). Ces données sont corroborées par des enregistrements de potentiels évoqués sous corticaux en réponse à des stimuli langagiers, l’augmentation de la vitesse de stimulation entrainant une augmentation de la latence de l’onset, une augmentation d’amplitude des hautes fréquences (1400Hz) ainsi qu’une diminution d’amplitude des fréquences correspondant à la fréquence fondamentale (Krizman et al, 2010).

Par ailleurs, l'importance relative des analyses spectrale et temporelle apparaît être très variable suivant les individus. Il faut cependant savoir que les filtres auditifs des sujets malentendants peuvent être quatre fois plus larges que ceux des normo-entendants (Moore, 1995). Par conséquent, l'analyse spectrale des signaux est dégradée par un facteur quatre pour ces sujets et l'analyse temporelle, souvent non dégradée (Bacon & Gleitman, 1992) revêt alors sans aucun doute une importance particulière.