2. Principes de fonctionnement des réseaux connexionnistes

Les réseaux connexionnistes se réfèrent aux propriétés et à l’architecture du cerveau, c’est-à-dire la transmission de l’influx nerveux et la très grande densité de connexions neuronales. Les neurones des modèles connexionnistes sont des neurones formels qui simulent le fonctionnement des neurones biologiques comme la loi du tout ou rien et la notion de seuil d’activation (Changeux, 1983). Les réseaux connexionnistes sont caractérisés par des noeuds et des liens comme dans les modèles associationnistes. Ils comportent deux ou plusieurs couches de noeuds. Au plus bas niveau, les noeuds sont activés par des entrées correspondant à des schémas perceptuels. Au plus haut niveau, les noeuds reçoivent l’activation des noeuds de bas niveau et activent à leur tour les mécanismes de réponse. Un ou plusieurs niveaux intermédiaires d’unités cachées reçoivent les entrées de bas niveau et les transmettent aux niveaux supérieurs. Ces unités cachées enrichissent le réseau de par leur capacité à former des représentations internes nécessaires dans la résolution de certains problème comme le ou exclusif (une catégorie est présente quand un trait x ou y est présent mais pas quand x et y sont présents). Chaque lien entre les noeuds est associé à un poids qui détermine la force de transmission et la mémoire réside entièrement dans cette configuration de poids. Les règles de modification de la force des connexions modifient ces poids durant l’apprentissage. La mémoire est ainsi modifiée par les entrées dans le réseau à chaque nouvelle expérience.

Les modèles connexionnistes de catégorisation (Gluck & Bower, 1988 ; Shanks, 1990 ; Kruschke, 1992) sont basés sur l’idée que l’apprentissage de catégories correspond à l’apprentissage d’associations entre des traits et les catégories auxquelles ils sont associés. Chaque trait qu’un exemplaire possède représente une des entrées du réseau. Les noeuds d’entrée sont connectés par une séries de noeuds intermédiaires aux noeuds de sortie. Chaque unité de sortie correspond à une catégorie. Durant l’apprentissage, les poids sont modifiés par un algorithme d’apprentissage de sorte qu’une série de traits donnés activera seulement le noeud de sortie correct et non les autres.

Estes (1989) a élaboré le modèle de contexte afin de caractériser plus précisément les processus d’apprentissage d’une tâche de classification, l’idée étant que les changements essai par essai dans les représentations des catégories sont une fonction de l’apprentissage. Ses travaux comparaient les prédictions des modèles d’exemples et des modèles prototypiques aux prédictions d’un modèle en réseau au traitement parallèle à une seule couche du type de celui de Gluck et Bower (1988).

Dans le modèle de Kruschke (1990a, 1990b, 1992) ALCOVE, les composants clés du modèle GCM (Nosofsky, 1988) sont implémentés dans un réseau connexionniste multicouches. Au lieu de simplement comparer la similarité d’un stimulus aux exemples stockés en mémoire, ALCOVE suppose que des associations sont apprises entre les exemples stockés (représentés par des unités cachés) et des catégories (représentées par des unités de sortie). Ces associations positives ou négatives qui lient les exemples aux catégories sont pondérées par des poids d’association. Ces poids sont appris par le réseau en utilisant le même algorithme d’apprentissage ou règle delta (rétropopagation de l’erreur de Gluck et Bower, 1988).

Dans le modèle en réseau adaptatif de Gluck & Bower (1988), les poids des connexions sont ajustés proportionnellement à l’erreur produite. Quand l’erreur diminue à travers l’apprentissage, les poids changent de moins en moins. Les unités de traitement sont connectées par des liens associatifs pondérés. Le réseau est composé d’une couche d’unités sensorielles (les unités d’entrée), d’une couche d’unités de réponse (les unités de sortie) et éventuellement d’une couche ou de plusieurs couches intermédiaires (les unités cachées). L’état de chaque unité de traitement à un temps t est décrit par son activation qui est déterminée par la somme de toutes les connexions afférentes pondérées de cette unité. Cette activation se diffuse le long des connexions soit directement aux unités de sortie soit aux unités intermédiaires qui les relient aux unités de sortie. Après réception d’un feedback concernant le schéma de réponse désiré pour chaque entrée, le système ajuste les poids des connexions pour que les entrées produisent des réponses proches de celles désirées. A travers la répétition d’une série de paires entrée-sortie désirées, le système apprend les poids associés à ces paires. Ces poids correspondent aux forces d’associations dans les théories classiques de l’apprentissage et l’algorithme qui permet leur changement en fonction des feedbacks correspond aux règles d’apprentissage dans les théories traditionnelles. La règle delta est une règle d’apprentissage qui corrige l’erreur en minimisant l’écart entre les réponses attendues et les réponses données.