Le problème de graduation comme un problème d’optimisation

L’objectif n’étant pas ici l’approfondissement sur la technique de la rétro-propagation, il faut remarquer que pour le problème XOR, sans rétro-propagation, il fallait donner au réseau de neurones en supplément et en entrée la fonction ET. Avec un réseau à rétro-propagation on a l’avantage de voir le réseau trouver en toute autonomie ce recodage.

Concrètement, ce que le réseau de neurone fait est de trouver le minimum global d’une fonction de plusieurs variables par itérations successives. La méthode ou l’heuristique classique pour optimiser une fonction monotone (ex : fonction ET) ou non-monotone (ex : fonction XOR) dans le domaine des réseaux de neurones est la méthode du gradient.

Du fait que les valeurs des variables sont rangées dans une matrice Z, et que la fonction à minimiser est :. L’algorithme est ainsi décrit par Abdi (1994).

  1. Choisir arbitrairement les valeurs Z(t) pour t=0 ;
  2. Calculer le gradient de g (noté ) :
  1. Corriger Z(t) en direction inverse du gradient de Z(t) (avec dénotant la constante de proportionnalité) :
  1. Continuer les étapes 2. et 3. tant que l’écart entre Z(t) et Z(t+1) est jugé important.

Ici, la fonction objectif ou la fonction à minimiser est la fonction quadratique d’erreur pour la k-ième réponse :

Par conséquent, l’apprentissage sera meilleur lorsque la valeur résultante de la fonction d’erreur sera plus faible. Ces formules et l’algorithme ont été repris d’Abdi (1994).

Notamment, les systèmes multi-agents possèdent de très remarquables techniques d’optimisation telles que : l’Optimisation par Colonie de Fourmis (ACO) et l’Optimisation par Essaim de Particules (PSO).

L’intérêt ici est de montrer comment le problème de la représentation interne, d’abord lié aux « agents » intermédiaires ou cachés du connexionnisme, devient un problème d’optimisation générale. L’apprentissage de la fonction logique XOR est démontré par un graphique où l’on voit que le réseau de neurone a finalement trouvé une vallée menant au point minimal.

Figure 18. Résultats d’une simulation de l’apprentissage de la fonction logique XOR (ou exclusif) avec un réseau à rétro-propagation de l’erreur comportant 2 unités d’entrée, 3 unités pour la couche cachée, et une unité pour la couche de sortie. L’abscisse donne le nombre d’époques d’apprentissage et l’ordonnée la valeur de la somme des carrés d’erreur. Le réseau reste sur un « plateau » de la fonction d’erreur pendant plus de mille époques. Puis il trouve finalement une vallée correspondant à un minimum. Ce type de résultat est typique des performances des réseaux à couches cachée et rétro-propagation d’erreur. (Abdi, 1994, p. 156)
Figure 18. Résultats d’une simulation de l’apprentissage de la fonction logique XOR (ou exclusif) avec un réseau à rétro-propagation de l’erreur comportant 2 unités d’entrée, 3 unités pour la couche cachée, et une unité pour la couche de sortie. L’abscisse donne le nombre d’époques d’apprentissage et l’ordonnée la valeur de la somme des carrés d’erreur. Le réseau reste sur un « plateau » de la fonction d’erreur pendant plus de mille époques. Puis il trouve finalement une vallée correspondant à un minimum. Ce type de résultat est typique des performances des réseaux à couches cachée et rétro-propagation d’erreur. (Abdi, 1994, p. 156)

Ce problème de la représentation, loin des intérêts de comparaisons de performance d’optimisateurs en informatique ou en ingénierie, est évidemment au centre des préoccupations des psychologues, qui espèrent par ce moyen, avoir entre leurs mains un outil pour explorer l’émergence naturelle de la représentation chez les organismes complexes, et en particulier chez les sujets humains.

La principale critique faite par les connexionnistes eux-mêmes à la rétro-propagation concerne le très long temps d’apprentissage. Il faut prévoir de nouvelles techniques, plus robustes pour résoudre honorablement des problèmes complexes. Rumelhart (1998) donne une notion de la complexité liée à un problème moyennement difficile.

‘« The basic finding has been that difficult problems require many learning trials. For example, it is not unusual to require tens or even hundreds of thousands of pattern presentations to learn moderately difficult problems - that is, those whose solution requires tens of thousands to a few hundred thousand connections. » (Rumelhart, 1998, p. 235)’

Accélérer l’apprentissage est donc une très grande préoccupation pour permettre une application à des problèmes plus difficiles dans un nombre plus raisonnable de stimulation. Cette technique est restreinte à l’apprentissage supervisé, où les bonnes réponses sont connues (Abdi, 1994).