III.3.3.Différence avec les modèles récurrents « classiques »

L’utilisation d’un tel réseau récurrent temporel pour la représentation et l’apprentissage de séquences n’est pas nouvelle (Pearlmutter, 1995 ; Jordan, 1990 ; Elman, 1990). Ces réseaux intègrent la sortie précédente du réseau à l’entrée courante, pour déterminer leur état interne. L’apprentissage modifie les poids des connexions constituant le réseau de façon à ajuster au mieux la sortie obtenue à la sortie désirée. Cependant, avec les méthodes de rétropropagation récurrente couramment utilisées, la structure temporelle (et donc prosodique) ne peut être traitée indépendamment de la structure sérielle.

Afin de doter le réseau récurrent d’une sensibilité temporelle, chaque neurone est représenté par un intégrateur à fuite, dont un des paramètres est une constante de temps. Cette constante est directement reliée à la sensibilité temporelle du réseau. Nous verrons (Chapitre Six) qu’en modifiant cette constante, le réseau ne détecte plus les variations temporelles les plus rapides. En outre, l’échantillonnage des données ne dépend ni du type d’entrées (syllabes, mots, etc.) ni de la sortie désirée ou du processus d’apprentissage. Ainsi, les données en entrées peuvent avoir une durée arbitraire (Dominey et al., 1995 ; Dominey et Ramus, 2000).

Cet aspect du réseau est dénommé contrainte temporelle, elle implique que les informations sont fournies de façon séquentielle au réseau. Il n’est donc pas possible de traiter en parallèle des données qui ont eu lieu à des instant différents. De plus, la durée est représentée par le nombre de cycles pendant lequel un événement est présenté au réseau. Ainsi, si une consonne dure 60ms, elle est présentée 12 fois en entrée du réseau (soit 12 pas de 5ms).

La structure temporelle des entrées peut être traitée et représentée par le TRN avec une complexité spatiale et un coût informatique peu élevés. Effectivement, le réseau TRN fait appel a beaucoup moins d’unités que le modèle utilisé par Buonomano (2000) pour la discrimination de séquences simples. En outre, les algorithmes d’apprentissage inspirés de la rétropropagation du gradient (recurrent back-propagation et back-propagation through time) font appel à des ressources informatiques, qui ne sont pas biologiquement raisonnables (Pearlmutter, 1995).

Pour palier à ces défauts inhérents à une contrainte temporelle, les connexions récurrentes sont fixes, i.e. elles ne sont pas modifiées par l’apprentissage. Nous étudions une population de réseaux TRN, dont la seule différence est la répartition des poids des connexions. La sélection du réseau donnant les meilleures performances sur le corpus d’apprentissage permet de simuler un apprentissage modifiant le poids de ces connexions. Cette sélection ppourrait vraisemblement être améliorée par une sélection par algorithme génétique.

Dans le cas du réseau TRN, l’apprentissage s’effectue par renforcement lorsque la mémoire associative est utilisée (Ramus et Dominey, 2000) ou par un mécanisme d’apprentissage indépendant extérieur au modèle (Blanc et Dominey, 2003). Le réseau agit alors comme un mécanisme d’encodage des informations spatio-temporelles en informations spatiales.

Une autre différence avec les modèles classiques provient du type d’information traitée. Jusqu’à présent, le TRN traitait une information discrète. Dans ce contexte, un des neurones d’entrées du réseau représentait un événement, comme les consonnes ou les voyelles (Dominey et Ramus, 2000). Dans cette thèse, nous posons l’hypothèse que ce réseau peut traiter une information continue dans le temps et dans l’espace, comme la fréquence fondamentale ou le spectre.

Les mécanismes de traitement des séquences temporelles, présentés précédemment, sont des systèmes d’analyse généraux, qui peuvent intervenir pour différentes modalités. Cependant, notre travail concerne uniquement la modalité auditive, c’est pourquoi nous proposons maintenant un rapide aperçu du traitement de l’acoustique par le système nerveux.