II.1.3.Critique des modèles théoriques

Une limitation importante de la descente du gradient a été identifiée indépendamment par Hochreiter (1991) et Bengio, Simard et Frasconi (1994). Lorsque la durée des séquences temporelles augmente, l’influence des composantes initiales de la séquence a de moins en moins d’impact sur la sortie du réseau. Cela a conduit à la définition du gradient partiel qui définit le changement des poids de plus en plus proches de zéro, au fur et à mesure que la séquence apprise augmente.

Bien que ces modèles puissent reproduire des données comportementales (Cleeremans et McClelland, 1991 ; Elman, 1990), ils ne respectent pas des contraintes anatomiques ou physiologiques. Quelles sont les structures cérébrales impliquées dans le traitement de séquences discrètes ?