II.3.3.Système Acteur-Critique

L’algorithme d’apprentissage décrit précédemment est principalement utilisé dans le cadre des modèles Acteur-Critique. Un sous-réseau dénommé Acteur apprend des actions de manière à maximiser la somme pondérée des futures récompenses, qui est calculée à chaque itération par un autre sous-réseau, la Critique (Barto, 1995). La Critique est adaptative dans le sens où elle prédit les récompenses à partir des entrées courantes et de l’activité de l’acteur, en comparant la prédiction avec les récompenses réelles. L’erreur entre deux prédictions est appelée erreur de différence temporelle. Elle est utilisée pour mettre à jour les poids des connexions de la Critique (Sutton, 1988)

Niv, Joel, Meilijson et Ruppin (2002) ont appliqué des algorithmes génétiques au système Acteur-Critique pour modéliser la prise de décision lors de la récolte du nectar chez les abeilles. Les troubles des patients parkinsoniens peuvent également être modélisés, en diminuant la valeur de la vitesse d’apprentissage, ce qui simule une diminution de la dopamine (Berns et Sejnowski, 1998).