IV.Plan de thèse

La parole est organisée par sa structure temporelle, suivant différentes échelles de temps. Concrètement, nous étudierons trois niveaux distincts, qui permettent à un auditeur de déterminer (a) la langue parlée, (b) les attitudes communicatives portée par l’intonation, (c) les catégories lexicales des mots, et finalement (d) la présence ou l’ordre de tons purs brefs. A priori, ces questions peuvent sembler disparates et sans point commun : en particulier, chacun de ces niveaux d’analyse peut nécessiter un mécanisme de traitement distinct.

Cette thèse postulera une position théorique contraire, que nous dénommerons l’hypothèse de Continuum Temporel : cette hypothèse suppose que les structures temporelles qui encodent l’identité d’une langue, les attitudes, les catégories lexicales ou des séquences de tons purs forment un continuum. Un corollaire direct de cette hypothèse est qu’il existe un seul et même système capable de traiter ces structures temporelles, le long de ce continuum. Les recherches précédentes de notre groupe ont développé un modèle d’apprentissage des séquences sensori-motrices, le réseau récurrent temporel (TRN). Ce modèle emploie un réseau d’unités dynamiques, avec une distribution de différentes constantes de temps, reliées par des connexions récurrentes. La combinaison de ces principes autorise un système dynamique, qui est sensible en théorie à différentes échelles temporelles.

Notre premier chapitre présentera les travaux des neurosciences computationnelles pour le traitement des informations temporelles et inclura en détail le modèle utilisé (TRN). La problématique du traitement des informations inscrites dans le temps constitue ainsi le point de départ de notre travail. Le chapitre suivant exposera les travaux concernant la prosodie.

La partie expérimentale de cette thèse vérifiera donc que l’identification des langues, des attitudes, des catégories lexicales et de tons purs brefs peut être réalisée par un seul mécanisme, avec des hypothèses neurophysiologiques plausibles (TRN).

Trois tâches de traitement de parole et deux tâches de perception de tons purs évoqueront ainsi une organisation temporelle d’abord globale puis de plus en plus locale :

  1. L’Identification Automatique des Langues (IAL) s’appuie sur la distribution globale de la prosodie d’une langue. Le système devra indiquer la langue parlée contenue dans un signal acoustique ;
  2. L’Identification des Attitudes Prosodiques étudiera la prosodie définie pour des courtes phrases de 6 syllabes. Chacune de ces attitudes a été définie dans un cadre très strict en vue de leur synthèse (Morlec, Bailly et Aubergé, 2001). Le système devra indiquer l’attitude ou la modalité d’une phrase à partir du contour intonatif ;
  3. La Catégorisation Lexicale portera sur la prosodie des mots. Le système devra distinguer les mots de fonction des mots de contenu ;
  4. Ce dernier point permettra d’examiner les conséquences d’un Dysfonctionnement lors du Traitement Temporel Auditif. Ce dysfonctionnement peut être obtenu par une augmentation des valeurs des constantes de temps, caractérisant le réseau, simulant ainsi un trouble biologique des neurones.

Tout au long de la thèse, plusieurs points doivent être considérés : chacun des domaines abordés représente un domaine de recherches indépendant et fortement développé. L’objectif principal de cette thèse n’est pas de démontrer des résultats supérieurs à ceux obtenus par des approches plus spécifiques. Mais l’objectif est de prouver que le TRN peut obtenir des performances voisines de celles des êtres humains, et plus particulièrement d’auditeurs « naïfs » pour la parole testée, comme des nourrissons, en respectant la « contrainte temporelle » que nous allons maintenant décrire. Ainsi le TRN peut être la simulation d’une ressource cérébrale potentiellement utile pour résoudre certaines tâches intervenant lors de l’acquisition du langage.

Pour chacun de ces domaines, la durée temporelle est extraite, si bien que le signal analogique de la parole est souvent transformé en une séquence de symboles discrets (phonème, syllabes ou mots dont la durée est codée sous forme symbolique ou numérique). Ces symboles sont d’une part dépendants de la tâche à réaliser (syllabe pour le traitement du contour intonatif, mots pour l’apprentissage de la syntaxe, etc.…) et d’autre part définis à partir de connaissances précises de la langue étudiée, qui ne sont pas directement accessibles à un nouveau-né. Ainsi, la contrainte temporelle nécessite que la structure temporelle du signal acoustique reste dans sa forme analogique à l’entrée du système, sans conversion des données en durée codée symboliquement. Cette contrainte reflète ainsi un traitement réaliste du temps.

Cette thèse apporte deux contributions : premièrement, en exploitant de façon « naïve » les données acoustiques pour catégoriser les structures prosodiques, une même architecture, le modèle TRN, modélise certaines des tâches réalisées par le nouveau-né, confronté à la prosodie comme point d’entrée perceptuelle de sa langue. Effectivement, le TRN reste compétitif avec des approches alternatives, proposées dans chacun de ces domaines. Deuxièmement, des indices temporels sont identifiés et validés dans deux langues pour distinguer les catégories lexicales.

Mais ne laissons pas le temps filer plus longtemps…