II.3. Discussion et conclusion des deux premières études

A l’issue de nos deux premières recherches, nous avons pu apporter certains éléments cohérents avec la théorie des effets d’AdA développée par Zevin et Seidenberg (2002 ;2004). Dans un premier temps, une influence des propriétés des systèmes écrits des langues sur l’émergence de l’effet a été mise en évidence dans une tâche de dénomination de mots proposée à des locuteurs Japonais. L’utilisation de caractères idéographiques Kanji a en effet autorisé l’émergence d’un discret effet d’AdAortho au cours du processus d’appariement de la forme visuelle reçue en entrée avec une représentation phonologique attendue en sortie, chez des lecteurs experts. En revanche, l’effet disparaissait entièrement lorsque les mêmes formes phonologiques pouvaient être récupérées à partir de la traduction des Kanji dans le script syllabique Hiragana, caractérisé par les relations transparentes entre unités visuelles et sonores. Ces résultats viennent renforcer la proposition de Zevin et Seidenberg (2002) relative au fait que les spécificités des stimuli et de la tâche à apprendre constituent les principaux déterminants de l’installation des effets d’AdA. Cette mise en relation de l’AdA avec les stratégies d’acquisition des informations nouvelles avait d’ailleurs déjà été ébauchée dans les travaux fondateurs de Ellis et Lambon-Ralph (2000), qui assimilaient alors l’AdA au produit naturel des apprentissages cumulatifs et intercalés. Ellis et Lambon-Ralph (2000) défendaient en effet l’idée suivant laquelle ce type d’apprentissage était à l’origine d’importantes modifications de la valeur des poids des connexions consécutivement à la présentation des premiers items, qui réduisaient la sensibilité ultérieure du modèle aux signaux d’erreur générés par les exemples intervenant plus tard dans l’entraînement. Dans ce contexte, le réseau ne pouvait développer une capacité de discrimination fine pour un sous-ensemble d’exemple de sa base d’entraînement qu’au prix d’une diminution de ses possibilités d’adaptation face aux nouveaux items. Zevin et Seidenberg (2002) ont affiné cette explication en démontrant qu’une telle situation n’était observable que dans les conditions où les particularités des stimuli empêchaient que les connaissances construites sur la base des premiers acquis d’être réutilisées au moment des acquisitions nouvelles, forçant un apprentissage par mémorisation. Cette logique a permis aux auteurs d’affirmer que la richesse de la structure interne des langues alphabétiques suffirait à favoriser l’exploitation du principe déductif, éliminant l’influence de l’AdA sur l’efficacité de la lecture des adultes à l’exception peut-être du traitement des mots contenant des correspondances graphèmes phonèmes inconsistantes dont l’assimilation mobiliserait moins les stratégies déductives (voir aussi Monaghan & Ellis, 2002b).

Les analyses expérimentales et les simulations de Zevin et Seidenberg (2002) étaient en outre très claires sur le fait que l’apprentissage précoce de certains items avait moins à voir avec un ordre particulier de présentation qu’avec certaines propriétés lexicales intrinsèques à même de faciliter l’assimilation de ces mots. Parmi ces facteurs, les rencontres répétées avec un ensemble de mots à une période donnée de la vie jouait un rôle tout à fait déterminant sur la vitesse des acquisitions dans les premières étapes de l’installation des procédures du traitement de l’écrit. Le réseau développé par Zevin et Seidenberg (2002) était néanmoins capable par la suite d’assimiler les informations introduites tardivement dans son entraînement moyennant un nombre de présentations plus réduit, attestant de ce fait des bénéfices tirés de l’apprentissage des premiers exemples. Il découle de ce principe que l’avantage des mots présentés fréquemment au réseau au début de son entraînement ne restait observable que sur une portion de temps délimitée durant laquelle le nombre total de rencontre avec les mots précoces restait encore supérieur au nombre de confrontations correspondantes avec les mots présentés plus tardivement. A terme, les performances des adultes ne seraient donc plus affectées que par l’accumulation des rencontres avec les mots, indépendamment de la manière dont ces rencontres se distribuaient dans le temps.

Les résultats obtenus dans le contexte de notre étude transversale suggèrent effectivement que l’apprentissage de la lecture puisse au moins en partie s’organiser conformément avec ce principe. Tandis que les performances des enfants apparaissaient fortement corrélées avec la fréquence d’occurrence des mots qui leur étaient présentés, l’organisation des latences de réponse enregistrées auprès des adultes jeunes et âgés était moins étroitement prédite par ce facteur. D’autre part, les mots acquis entre les classes de CP et CE1, également associés à une valeur de fréquence cumulée plus importante que les mots des autres listes, restaient associés à une efficacité de traitement plus importante tout au long de la vie. Il semble toutefois prématuré de considérer que l’accumulation des instances suffise à expliquer entièrement les effets attribués à l’âge ou à l’ordre d’acquisition dans la littérature. Le calcul des temps de réaction théoriques appuyé sur le modèle de Lewis (1999ab, 2001) a en effet permis de démontrer qu’avec l’avancée en âge, les mots appris à 4 années d’intervalle dans l’enfance tendaient à présenter des valeurs de fréquence cumulée équivalentes, ce qui se traduisait par une homogénéisation des performances associées aux mots des 4 listes présentées. Or les mots tardifs, acquis au cours de la dernière année d’école élémentaire, persistaient à induire chez les adultes des latences de réponse significativement allongées par rapport à celles prédites par l’hypothèse de fréquence cumulée. La différence de traitement opposant les mots précoces et tardifs conservait en outre une amplitude étonnamment semblable entre l’enfance et l’âge adulte, suggérant fortement que ce phénomène n’est pas lié aux processus généraux de familiarisation avec la langue écrite. Contrairement aux affirmations de Zevin et Seidenberg (2002), une partie des résultats obtenus dans le contexte des présentes recherches suggère donc que quelque chosese passe au moment des premiers apprentissages qui cause une sur-représentation des mots précoces dont les acquisitions ultérieures se ressentent (voir également Nazir, Decoppet & Aghababian, 2003, pour un constat similaire).

Considérant les simulations conduites par Zevin et Seidenberg (2002) dans le détail, il apparaît que la disparition des effets d’AdA a essentiellement été obtenue dans des circonstances où le modèle était entraîné sur une base de 2891 mot monosyllabiques et monomorphémiques dont un sous-ensemble était sélectionné pour représenter les items cibles. L’entraînement du modèle sur un ensemble de mots plus large que les seules instances précoces et tardives avait pour vocation de reproduire avec réalisme l’appariement quasi-régulier unissant les représentations orthographiques et phonologiques en langue Anglaise. Le taux de présentation de ces items dits d’« arrière plan » était défini en rapport avec leur fréquence réelle, établie à partir d’un comptage d’occurrences réalisé sur un corpus de quotidiens américains (Marcus, Santorini & Marcinkiewicz, 1993 ; cité par Zevin et Seidenberg, 2002). Il est encore précisé que l’intervalle de fréquence dans lequel s’exprimaient les mots d’arrière plan était similaire à celui choisi pour l’entraînement des items cibles. Les expériences ont montré que ce mode d’apprentissage préservait les capacités de généralisation y compris lorsque les items cibles étaient des mots « étranges » sélectionnés pour que leur prononciation diffère de celle des mots visuellement apparentés dans la liste d’entraînement, contrairement à ce que suggéraient les modélisations réalisées par Monaghan et Ellis (2002b).

La mise en évidence d’un avantage persistant des mots acquis précocement sur les mots acquis tardivement sur les latences de décision lexicale des lecteurs experts en Français doit donc faire penser, si l’on souhaite conserver le modèle de Zevin et Seidenberg (2002) comme cadre de référence, que les conditions normales d’apprentissage de la langue empêchent, ou plus exactement ralentissent, le réinvestissement des premières connaissances acquises. Ces contraintes imposent une phase de mémorisation au cours des premières étapes de l’acquisition de la lecture. Notre hypothèse de base est que le nombre et/ou la diversité des mots rencontrés au cours de la première année d’apprentissage de la lecture, ou encore les capacités d’assimilation des jeunes apprenants, n’autorisent pas une déduction des liens logiques des structures sous jacentes aussi efficace que celle réalisée par le modèle. Il semble donc utile de faire un point plus précis sur ce qui distingue le vocabulaire écrit rencontré par les enfants au cours de leur apprentissage de celui des lecteurs adultes. Une telle comparaison a été réalisée avec une grande précision par Lété (2004), partant des valeurs de fréquences d’occurrence des mots des manuels scolaires destinés aux élèves de l’école primaire pondérées par un indice de dispersion établies dans la base Manulex (Lété et al., 2004) et des normes correspondantes définies pour les adultes dans la base Lexique (New et al., 2001). Ainsi, Lété (2004) rapporte que tandis que la fréquence moyenne des mots dans un corpus de textes adressé aux adultes est de l’ordre de 20 occurrences par million environ, cette fréquence moyenne évolue de 135 occurrences par millions au CP, à 94 au CE1 et à 47 entre le CE2 et le CM2. A partir du Cycle 3 (du CE2 au CM2), 50% des mots ont une fréquence inférieure à 1 occurrence par million rejoignant en cela les observations concernant les corpus de textes des adultes. La comparaison des normes de fréquence collectées pour les différents niveaux scolaires dans Manulex révèle surtout que 25% des mots répertoriés pour les élèves de CP ont une fréquence d’occurrence supérieure à 43 par million, ce qui est l’indice d’une importante répétition du vocabulaire dans les manuels destinés à cette classe. Ce constat est relayé par les remarques formulées par Lété et al., (2004) au sujet du faible nombre de hapax (i.e. mots ou formes rencontrés une seule fois dans un corpus donné) relevé dans le corpus de manuels scolaires utilisés pour la construction de Manulex comparativement aux corpus de textes destinés aux adultes (31% des mots et 21% des lemmes dans le corpus de manuels contre près de 50% dans le corpus de Lexique). La restriction du nombre de ces hapax avait alors été attribuée à la nécessité de répéter le vocabulaire dans l’intention de le faire apprendre. Dans ses estimations du vocabulaire des enfants entre 6 et 11 ans, Lété (2004) met en outre l’accent sur la nécessité de distinguer le lexique des manuels, donnant un aperçu des mots que l’enfant a des chances de rencontrer au cours de sa scolarité, du vocabulaire de l’enfant, qui concerne plus directement son stock lexical en réception ou en production de l’écrit. Lété souligne que les estimations de l’importance du vocabulaire des enfants sont souvent surévaluées dans la littérature du fait que ces estimations s’appuient sur un lexique représentant la totalité des mots de la langue (voir par exemple Anglin, 1993 ; cité par Lété, 2004) plutôt que sur une approche réaliste du matériel écrit auquel l’enfant est susceptible d’avoir été confronté au cours de ces lectures. L’estimation du vocabulaire écrit en réception des enfants de CP basée sur l’analyse moyenne des lemmes extraits des manuels intégrés dans le corpus de Manulex a permis d’établir qu’un manuel regroupait en moyenne 2 500 formes orthographiques distinctes dont 1 900 lemmes. Cette procédure a permis à Lété (2004) de conclure que le stock de mots assimilé par un enfants à la fin de sa scolarité élémentaire était de l’ordre de 5 000 unités, ce qui représente environ le quart du vocabulaire contenu dans un corpus d’écrit de son niveau scolaire représentatif et un quinzième du vocabulaire des textes destinés aux adultes. L’ensemble de ces constatations suggère bien que dans les conditions normales d’apprentissage de la lecture, les enfants ne seraient pas en position d’exploiter le vocabulaire écrit rencontré pour construire leur connaissance de la structure interne de leur langue avec autant d’efficacité ou de rapidité que le prévoient les modèles connexionnistes. Dans l’intervalle séparant la mise en fonction des procédures de réinvestissement des connaissances acquises, la participation de la mémorisation des associations de paires orthographiques et phonologiques pourrait être plus conséquente, justifiant l’apparition ultérieure des effets d’AdAortho.

L’impact de la quantité ou de la qualité des informations lexicales auxquelles les enfants sont sensibles dans les toutes premières phases de leur apprentissage de la lecture sur l’installation des effets d’AdAortho sera examiné plus directement dans l’étude suivante.