I.1.2.2. Apport des modèles connexionnistes : l’apprentissage dynamique continu.

Comprendre l’origine, les conséquences physiques, le décours temporel et l’impact des changements sont autant d’enjeux pour le chercheur concerné par l’acquisition de la lecture et par le développement en général. Les réseaux connexionnistes offrent une occasion unique de surveiller l’installation progressive de l’expertise dans un environnement interactif sous l’influence d’un algorithme d’apprentissage déterminé. D’après la description de Christiansen et Chater (1999) les modèles connexionnistes représentent une avancée considérable face aux approches traditionnelles du traitement des langues du fait notamment de leurs capacités d’apprentissage et de généralisation. La structure interne de ces modèles n’est en effet pas pré-structurée par leur concepteur, et le modèle est dans une certaine mesure laissé libre de représenter les connaissances qu’il acquiert par son expérience de manière à optimiser les réponses qu’il doit apporter aux stimuli présentés à son entrée. Ensuite, ces modèles sont capables de généraliser leurs connaissances à de nouvelles occurrences jamais rencontrées auparavant, ce qui constitue d’ailleurs un test critique de la fiabilité des simulations conduites.

L’apport des modèles connexionnistes à la compréhension des apprentissages sera ici discutée au travers de l’influent modèle de traitements parallèle et distribué d’acquisition de la lecture proposé par Seidenberg et McClelland en 1989. Comme de nombreux réseaux de neurones artificiels, l’architecture du modèle de Seidenberg et McClelland (1989) se décline en trois couches, la première constituant l’entrée du réseau, la dernière sa sortie et la seconde une couche cachée, tenant lieu d’intermédiaire entre les deux autres niveaux. Chacune des couches est constituée d’un nombre restreint d’unités primitives. Dans les modèles de type localistes chacune de ces unités est supposée représenter une propriété particulière du mot, nécessaire à son analyse. McClelland et Rumelhart (1981), dans leur célèbre modèle d’Activation Interactive, envisagent ainsi un regroupement de ces unités en sous catégories figurant les traits constitutifs des lettres, les lettres isolées et les formes orthographiques globales des mots. L’approche distribuée adoptée par Seidenberg et McClelland (1989) envisage pour sa part que chaque mot soit représenté par une constellation spécifique d’unités activées, chacune de ces unités étant susceptible d’intervenir dans la représentation de plusieurs mots. Les unités sont liées entre elles par l’intermédiaire de connexions excitatrices ou inhibitrices. Le réseau représente les informations qu’il reçoit sur les connexions reliant les cellules d’entrée à la couche cachée, puis les récupère à partir des connexions unissant la couche cachée aux unités de sortie. Toute la connaissance du réseau est ainsi contenue dans les poids associés à ses connexions. Le modèle de Seidenberg et McClelland (1989) donne un aperçu clair de la manière dont l’apprentissage de la lecture prend place dans de telles structures. Les auteurs admettent qu’au début de son entraînement, le réseau, à l’image du pré-lecteur, ignore tout de la manière dont il est supposé traiter les données qui sont lui sont soumises. Cet état initial est modélisé par l’attribution de faibles valeurs aléatoires aux poids des connexions. A ce stade, les réponses produites par le réseau sont par conséquent totalement hasardeuses. Il est néanmoins possible de calculer la distance séparant la réponse fournie de la réponse attendue, et donc d’utiliser l’écart obtenu pour modifier les valeurs des poids des connexions de manière à minimiser l’erreur du réseau (i.e. principe de rétropropagation de l’erreur). Dans les premières phases de l’entraînement, la désorganisation des connexions limite les répercussions des variations se produisant à un niveau de l’architecture sur les autres niveaux, et par extension sur le comportement général du réseau. A ce moment, l’apprentissage ne progresse que très lentement. Les connexions se réorganisent peu à peu sous l’influence des présentations répétées des items de la base d’exemple. Le réseau devient de plus en plus sensible aux informations qui lui sont fournies en entrée, et dès lors l’apprentissage s’accélère. Ce principe simple expliquerait donc l’apparente progression par étapes des enfants prise en considération par les modèles développementaux traditionnels (voir Munakata & McClelland, 2003 pour un commentaire sur ce point).

Tout l’intérêt du modèle de Seidenberg et McClelland (1989) tient dans le fait que son évolution et ses capacités de généralisation sont directement dépendantes des propriétés du système linguistique que le réseau détecte au cours de son apprentissage. De ce fait, la performance du réseau devient hautement dépendante du degré de régularité des relations de graphèmes à phonèmes et de la fréquence de présentation des items. Nous avons vu au chapitre précédant que dans les langues alphabétiques opaques les mots consistants comme les mots inconsistants possèdent certains clusters de lettres qui se répètent dans de nombreux mots. Si ces clusters sont systématiquement associés à une prononciation identique dans le cas des mots consistants (ex : balle, salle, dalle), ils correspondent à des prononciations différentes dans celui des mots inconsistants (ex : pas /pa/, bas /ba/, tas /ta/ mais sas /sas/). Une fois une connaissance élémentaire acquise par le réseau au sujet des correspondances grapho-phonémiques d’une certaine famille orthographique, tout nouveau mot consistant appartenant à cette famille peut être traité avec précision, moyennant un nombre restreint de présentations au réseau. Les mots inconsistants, dont l’assimilation est relativement indépendante des précédents acquis, sont au contraire davantage source d’erreur dans les premières étapes de l’entraînement, indépendamment de leur fréquence d’occurrence. L’impact initial de la consistance des mots se trouve toutefois rapidement contrebalancé par l’accroissement du niveau d’expertise et n’affecte plus, à terme, que le traitement des items de basse fréquence. A travers leurs simulations, Seidenberg et McClelland (1989) ont ainsi démontré que des confrontations répétées avec un ensemble représentatif de mots étaient suffisantes pour permettre au réseau de représenter dans le poids de ses connexions les aspects significatifs du système linguistique pour lequel il a été entraîné, sans qu’aucune règle de prononciation n’ait été intégrée par un agent externe. Le comportement du modèle est venu conforter les présupposés de ses auteurs relatifs au déterminisme des propriétés structurales de la langue et à l’assimilation du principe alphabétique sur le développement des routines adaptées au traitement de l’écrit. Il devenait ainsi envisageable que les simples rencontres répétées avec un matériel lexical diversifié constituent le moteur du développement de la capacité des enfants à reconnaître les mots écrits, en exerçant implicitement leur sensibilité aux contraintes de séquençage des graphèmes et aux variations de fréquence d’occurrence des combinaisons de lettres légales à chaque rencontre.

Ces travaux fondamentaux ont fourni une alternative prometteuse aux approches traditionnelles de l’acquisition de la lecture, bien qu’il faille garder à l’esprit que l’apprentissage des modèles connexionnistes satisfait à certaines particularités qui ne sont pas directement transposables chez le sujet humain. Les données expérimentales rapportées par Byrne (1989) tendent en effet à montrer que l’apprentissage intensif de couples de mots se distinguant sur le plan visuel et phonologique par un seul graphème (ex : FAT versus BAT) ne permettait pas aux pré-lecteurs de déduire les associations entre lettres et sons. Si les enfants parvenaient bien à discriminer les mots avec lesquels ils avaient été entraînés, leurs performances retombaient au niveau du hasard dès lors que les lettres cibles étaient intégrées dans un contexte différent (ex : FIG versus BIG). Byrne (1989) a conclu de ses résultats que le peu de conscience des enfants de cet âge de lecture concernant l’existence autonome des phonèmes rendait difficile la découverte des associations de lettres à sons à partir de la lecture seule. Seymour et Elder (1986) avaient pour leur part précédemment démontré que, dans un contexte plus naturel d’enseignement, la méthode globale 6 ne favorisait pas la mise en place des procédures de traitement non lexicales. Les enfants entraînés à la lecture au moyen de cette technique n’étaient généralement capables que de lire correctement les mots connus, et semblaient rarement appuyer leur décodage sur l’analyse des lettres individuelles, ainsi qu’en témoigne l’absence de corrélation entre longueur des mots et temps de réaction. Enfin, les néologismes et régularisations se faisaient rares parmi les erreurs enregistrées, mais les productions incorrectes restaient souvent visuellement similaires aux mots cibles, sur le plan de la longueur et des éventuelles propriétés saillantes des lettres de la séquence (ex : smaller lu yellow ). Les données empiriques rapportées ici suggèrent donc que le principe déductif défendu par le modèle de Seidenberg et McClelland (1989) est freiné par le caractère peu naturel de la lecture. La réconciliation des versants théoriques et expérimentaux vient certainement de la proposition de Gombert et Colé (2000) d’une continuité entre apprentissages implicites et explicites, les premiers servant de base aux seconds tout en restant impliqués dans toutes les étapes de la progression des enfants vers la lecture experte. L’hypothèse d’une réorganisation des routines de fonctionnement du réseau responsable de la lecture sous l’impulsion de l’expertise sera examinée plus en détail dans le chapitre suivant, à partir des récentes données de l’imagerie cérébrale qui semblent confirmer l’abandon progressif des processus précoces de traitement de l’information visuelle au profit de mécanismes plus efficaces, dans le courant de l’apprentissage de la lecture. Nous verrons toutefois dans un second temps, que la dynamique des apprentissages tombe sous la contrainte des phénomènes de rigidification, conséquence naturelle de la perte de plasticité des réseaux induite par l’accumulation de connaissances.

Notes
6.

Dans la classe concernée par l’étude de Seymour et Elder (1986), l’enseignement s’organisait autour de l’unité mot, et les apprentissages explicites des associations de lettres à sons étaient volontairement restreints à la pratique de l’orthographe et de l’écriture.