II.3.2.Apprentissage par Différence Temporelle (TD)

L’algorithme d’apprentissage par Différence Temporelle est un apprentissage par renforcement 12 (Suri, 2002). Son développement a été fortement influencé par les études d’apprentissage chez les animaux (Sutton et Barto, 1998). Il utilise un mécanisme d’estimation temporelle, qui prédit le temps d’arrivée d’une récompense lors de paradigmes pavloviens.

Le signal d’erreur du modèle TD était purement hypothétique, jusqu’à ce qu’il soit découvert que l’activité des neurones dopaminergiques de la substance noire et des aires ventrales et tegmentales ressemble au signal de récompense de la prédiction (Suri, 2002 ; Suri et Schultz, 1999). Les activations des neurones dopaminergiques ressemblent à celles décrites par les modèles d’apprentissage fondés sur les différences temporelles (Suri, 2002).

Des troubles observés dans la transmission de la dopamine perturbent le mouvement sériel chez les sujets humains (Suri, 2002). Etant donné les capacités d’apprentissage pour les séquences d’action de l’algorithme TD, cette dernière observation permet de conclure que l’activité des neurones dopaminergiques sert de signal prédictible pour l’apprentissage, dans une architecture biologique (Sutton et Barto, 1998).

L’apprentissage dépend du degré d’imprédictibilité des récompenses (Suri, 2002). Seules les récompenses apparaissant de façon imprévisibles vont renforcer l’apprentissage. La courbe d’apprentissage suit une asymptote, quand toutes les récompenses sont prévisibles. L’erreur ou la différence entre l’apparition de la récompense et sa prédiction entre en jeu lors de l’apprentissage de nombreux modèles de réseaux de neurones (Sutton et Barto, 1998). Suri, Bargas et Arbib (2001) proposent un modèle capable d’apprendre des séquences sensori-motrices, avec en plus des capacités de planification : ils forment de nouvelles chaînes associatives, et choisit son action en fonction des sorties prédites par ces chaînes associatives.

Notes
12.

Il converge vers une solution optimale (Dayan & Sejnowski, 1994).