Discussion, conclusion et perspectives

La parole est un ensemble d’éléments acoustiques produits à un taux moyen de trois à six syllabes par seconde (Laver, 1994). Notre capacité à, décoder ces éléments de manière compréhensible impliquent des traitements à de multiples niveaux du système auditif. Les modèles s’intéressant aux bases neurales sous jacentes à la perception de la parole se sont tout d’abord intéressées au cortex auditif (Bennett & Hacker, 2006; Hickok & Poeppel, 2007; Poeppel & Hickok, 2004; Poeppel, Idsardi, & vanWassenhove, 2008; Scott & Johnsrude, 2003; Scott & Wise, 2004). Toutefois, avant que la parole puisse être perçue et intégrée, stockées de manière stable au travers de ses représentations linguistiques, les indices acoustiques doivent être représentés à travers un code neural tout le long du système auditif et délivré au cortex auditif avec une précision temporelle et spectrale parfaite par les structures sous corticales (Eggermont, 2001; Hickok & Poeppel, 2007; Poeppel & Hickok, 2004; Poeppel et al, 2008).

Un certain nombre d’équipes se sont intéressées à l’encodage des sons de parole au niveau du nerf acoustique (Delgutte, 1980 ; Sachs & Young, 1980 ; Miller & Sachs , 1983), au niveau du noyau cochléaire (Caspary et al, 1977 ; Keilson et al 1997), et au niveau du tronc cérébral (Galbraith et al, 1995, 1997 ; Krishnan, 1999, 2002). Toutefois, la réalisation de ce travail de thèse a été motivée par la question de l’encodage des sons de parole au niveau du tronc cérébral et notamment dans le bruit. En effet, la parole est un signal complexe composé d’un grand nombre de traits acoustiques, tous nécessaires à la compréhension normale de celle-ci. La perception « normale » de ces traits acoustiques reposant sur leur encodage neural, fil conducteur de cette thèse.

Ainsi, nous avons essayé de mieux comprendre le traitement sous cortical de la parole dégradée, notamment par la caractérisation de l’importance de certains traits acoustiques dans la perception de la parole normale. Nous nous sommes appuyés sur des mesures neurophysiologiques du système auditif, représentées par les potentiels évoqués auditifs en réponse à un son de parole (PEASP), système non invasif de mesure de l’activité électrophysiologique du tronc cérébral, ceci dans l’objectif de pouvoir décrire les mécanismes impliqués, permettant de reconstruire de la parole dégradée et de comprendre le message parlé.

D’une part nous nous sommes intéressés aux conditions de recueil nécessaires à l’obtention de traces PEASP optimales (chaine d’acquisition, intensité de stimulation optimale) et à leur analyse automatique, d’autre part, nous avons étudié l’effet de certaines caractéristiques d’un son, à savoir, l’enveloppe temporelle, et le voisement sur les PEASP. Cette nécessité de mise au point fut d’ailleurs l’une des limitations de cette thèse, en effet, la nécessité d’optimiser le système d’acquisition des PEASP, fut une étape incontournable ayant demandé de nombreuses heures et sujets supplémentaires.

L’ensemble de ce travail a permis de mettre en évidence l’importance du rôle de certains indices acoustiques contenus dans le message parlé, pour la perception correcte de celui-ci. Ainsi, une synchronisation de la RSF des PEASP en réponse aux stimuli langagiers fut mis en évidence sur la fréquence fondamentale, synchronisation conditionnée par la structure fine ; synchronisation qui ne fut pas retrouvée sur les PEASP en réponse aux analogues.

Initialement, nous avions adopté une attitude se focalisant sur l’encodage de la parole par les voies ascendantes, nous avions souvent tendance à considérer l’encodage neural comme un mécanisme afférent. Toutefois, on ne peut concevoir l’étude de l’encodage de la parole sans l’étude conjointe de cet encodage au niveau cortical et sous cortical. En effet, lors de l’étude de l’encodage du voisement, indice dont le traitement a précédemment été mis en évidence au niveau cortical, et qui se révèle être en partie encodé dès le tronc cérébral, nous avons observé l’existence d’une interaction cortico sous corticale. L’existence de boucles de modulation cortico-sous-corticales était déjà connue (Xia & Suga, 2002 ; Perrot et al, 2006) et avait notamment été mise en évidence, par l’équipe de Nina Kraus lors de travaux menés chez des enfants présentant des troubles de l’apprentissage. En effet, l’entrainement linguistique effectué par ces enfants, permit l’initiation d’un « feedback » cortical, mis en évidence sur le traitement de certains indices acoustiques tels que la hauteur tonale, cette plasticité étant présente jusqu’à l’âge adulte (Song et al, 2008 ; Russo et al, 2005). Par ailleurs, il serait possible que l’activité de la RSF reflète de manière concomitante l’activité sous-corticale, l’activité corticale modulatrice efférente et l’activité corticale évoquées par un son de parole (Musacchia et al, 2008). De récentes études ont ainsi étendu la théorie hiérarchique inverse (Ahissar & Hochstein, 2004) mettant en avant l’action bénéfique de l’effet corticofugal (« top down »), initiant ou modulant la plasticité de la représentation de certaines caractéristiques acoustiques des sons au niveau du tronc cérébral (Suga, 2008 ; Luo et al, 2008 ; Tzounopoulos & Kraus, 2009). Cette plasticité cérébrale, favorisée par la pratique de la musique de manière professionnelle, pourrait être l’un des éléments à l’origine de la limitation des effets négatifs du bruit sur l’encodage neural des sons de parole (Parbery-Clark et al, 2009 ; Kraus et al, 2009 ; Strait et al, in press).

Pour l’équipe américaine de Nina Kraus, l’encodage des informations linguistiques constituerait un vrai marqueur biologique de la fonctionnalité du système auditif, notamment chez les enfants présentant des troubles de l’apprentissage. Ainsi, cette équipe développa un système d’exploitation clinique (BioMap), permettant l’objectivation des anomalies de traitement de la parole chez des enfants d’âge scolaire (8 à 12 ans) (Johnson et al, 2008 ; Song et al, 2008). Toutefois, l’ensemble des résultats présentés par cette équipe porte sur des groupes de sujets et non au niveau individuel. L’ensemble des résultats obtenus dans cette thèse, grâce à l’adaptation du système d’acquisition aux syllabes françaises, va d’ailleurs dans ce sens. En effet, même si une optimisation du recueil des traces a pu être obtenue, les résultats ne sont pas encore analysables à l’échelon individuel pour chaque sujet.

En effet, de récentes études s’intéressant aux potentiels évoqués auditifs en réponse à un son de parole (PEASP) ont révélé une caractéristique précieuse du tronc cérébral : celui-ci est capable de représenter avec une très grande fidélité les éléments acoustiques de base de la parole (pour revue : Kraus & Nicol, 2005). Ces PEASP nous offrents donc une méthode non invasive de tester l’intégrité du fonctionnement des structures sous corticale dans le traitement de stimuli complexes tels que la parole (Galbraith, Jhaveri, & Kuo, 1997; Glaser, Suter, Dasheiff, & Goldberg, 1976; Moushegian, Rupert, & Stillman, 1973; Russo, Nicol, Musacchia, & Kraus, 2004). Les PEASP offre un pointe de vue unique dans la compréhension de la représentation des éléments clés du signal acoustique, par le tronc cérébral.

Ainsi, les processus auditifs sous corticaux sont eux aussi dynamiques, et non figés comme nous l’avions longtemps pensé. Leur rôle dans la perception de la parole, sont encore loin d’être totalement élucidés, mais les données obtenues au cours de ce travail suggèrent de riches interactions sous corticale et corticale.

Cela permet d’envisager de nombreuses perspectives, telles que l’extension de l’étude de l’encodage dans le bruit à des sujets présentant des troubles de la perception, l’étude conjointe du système efférent auditif couplé à l’analyse des PEASP, ou bien encore l’enregistrement concomitant des PEASP et de l’activité corticale par électroencéphalographie.