2.3.4011Conscience systématique et mémoire

2.3.4.1011Validité prédictive des questionnaires de métamémoire

De nombreuses études ont été menées pour évaluer les propriétés métrologiques ou psychométriques des outils d'évaluation. Il s'agit de déterminer leur cohérence ou fiabilité et leur validité. Ces analyses cherchent à répondre aux questions suivantes :

  • les différents items (ou échelles) mesurent-t-ils bien une même dimension ? (cohérence interne)

  • la mesure est-elle stable dans le temps, reproductible ? (fiabilité test-retest)

  • la mesure est-elle cohérente avec d'autres mesures de la même dimension ? (validité de convergence et validité prédictive)

Généralement, les mesures de cohérence et de stabilité sont assez satisfaisantes (Herrmann, 1984), bien qu'il existe des différences entre outils (Johnson et Anderson, 1988) et entre items. Ainsi, le coefficient de fiabilité test-retest est élevé et se situe aux environs de .80. Par contre, la cohérence interne, mesurée par un coefficient de corrélation split-half varie de .46 à .93 pour les questionnaires considérés par Johnson et Anderson. Cela traduit l'existence de différents facteurs à l'intérieur-même des outils. Ce point a été abordé dans le paragraphe précédent, où il est attesté que la métamémoire fait référence à une variété de dimensions indépendantes.

La question qui nous intéresse plus particulièrement ici concerne la validité des questionnaires, qui consiste notamment à déterminer si l'auto-évaluation reflète la réalité de la performance (validité prédictive). A ce propos, les données sont beaucoup moins satisfaisantes. D'après Herrmann (1984), la validité prédictive est généralement inférieure à .50, mais peut être améliorée sous certaines conditions.

La validité des outils se mesure de différentes manières :

  1. en confrontant l'auto-évaluation avec des données de performance obtenues lors d'épreuves de mémoire,

  2. en confrontant les données de questionnaire avec des données d'auto-observation systématique (carnets de bord),

  3. en confrontant l'auto-évaluation individuelle à l'évaluation faite par une tierce personne (i.e., un proche),

  4. en comparant les évaluations de sujets normaux à celles de sujets dont on sait par ailleurs qu'ils ont des troubles de mémoire (patients psychiatriques ou neurologiques, personnes âgées...).

  5. Généralement, les auto-évaluations ne prédisent pas la performance réelle. Ainsi, par exemple, la corrélation entre la performance de reconnaissance de visages et l'auto-évaluation de la capacité à reconnaître les visages (SIME) est de .30 uniquement. La corrélation entre l'empan de chiffres et l'auto-évaluation de la mémoire « par coeur» des numéros de téléphone et adresses est de .40. Certains auteurs trouvent des relations significatives (mais faibles néanmoins) lorsque la mémoire est mesurée au cours de tests se rapprochant des tâches écologiques (Benett-Levy et Powell, 1980 ; Cavanaugh et Poon, 1989; Dixon, Hertzog et Hultsch, 1986 ; Dixon et Hultsch, 1983a, 1983b ; Harris et Wilkins, 1982 ; Maki et Swett, 1987), mais ce résultat est loin d'être systématique (Morris, 1984 ; Hertzog, Dixon et Hultsch, 1990). Toutefois, lorsque les questionnaires d'auto-évaluation sont très spécifiques aux tâches (Questionnaire Self Assessment of Laboratory Tasks de Herrmann, Grubs, Sigmundi et Grueneich, 1983), les corrélations peuvent être fortes, à condition que l'évaluation ait lieu après la résolution de la tâche (jusqu'à .87) et non pas suite à une simple description verbale (Herrmann, 1984).

  6. Des résultats plus probants apparaissent lors de la confrontation des auto-évaluations avec un relevé systématique des échecs de mémoire par journal. Toutefois, il faut noter que les relations existent à condition que les sujets soient amenés à observer leur propre comportement avant de remplir le questionnaire d'auto-évaluation ou lorsque les événements évalués sont suffisamment saillants pour le sujet (Shlechter, Herrmann et Toglia, 1990).

  7. La validité mesurée par un critère externe peut se révéler satisfaisante, notamment chez les patients atteints de troubles de la mémoire, mais aussi chez les sujets normaux. Dans cette situation, les auto-évaluations sont moins valides que les évaluations faites par un proche du patient (Sunderland, Harris et Baddeley, 1983, 1984). Encore une fois, la validité est plus grande lorsque les tests de mémoire portent sur des matériels écologiques (prose et paires d'associés). Cooley et Stringer (1991) montrent également que la prédiction de performance à des tests de laboratoire est plus conformes à la performance réelle lorsqu'elle est faite par un proche (jusqu'à .72) que par le patient lui-même (jusqu'à .48) ; toutefois, dans leur étude, les patients parviennent assez bien à prédire leur niveau de performance (tâches spécifiques) et l'exactitude de prédiction est meilleure pour la mémoire de texte, le rappel indicé de paires et le rappel libre d'une liste de mots.

  8. La dernière façon de mesurer la validité des outils d'évaluation se base sur la question de leur sensibilité aux différences individuelles : sont-ils capables de déceler des variations réelles dans les phénomènes mesurés. La validité de l'outil est alors appréhendée en comparant les scores d'évaluations de différentes populations. Si quelques recherches ont pu démontrer ainsi la validité des questionnaires d'auto-évaluation (Herrmann, 1984 ; chez personnes âgées : Dixon, 1989), il reste un grand nombre de cas où les différences d'évaluation attendues ne se manifestent pas (Sunderland et al., 1980 ; Benett-Levy et Powell, 1980 ; Chaffin et Herrmann, 1983). Cette approche est relativement délicate car il va de soi qu'un patient amnésique aura des difficultés à se souvenir de ses échecs, et ses évaluations traduiront justement ce manque de mémoire. Selon ce point de vue, la métamémoire n'est pas entièrement indépendante de la mémoire.

Globalement, cet ensemble de données incitent à croire que la validité des auto-évaluations est faible, donc que les questionnaires ne peuvent pas se substituer aux mesures classiques de la mémoire. Le manque de validité s'accompagne d'une inconsistance courante entre les résultats obtenus dans différentes études. Ce manque de validité ne provient pas d'une incohérence ou d'un manque de fiabilité des outils, mais semble plutôt refléter une incapacité des sujets à s'auto-évaluer correctement et un manque d'adéquation entre les tâches et matériels évalués et les tâches critères servant à estimer la performance. Les questionnaires sur le fonctionnement de la mémoire quotidienne peuvent difficilement être mis en relation avec la performance de mémoire en laboratoire à cause de l'écart considérable dans les tâches comparées. Abson et Rabbitt (1988, p. 186) soulignent en effet que « ‘les questionnaires sondent un large éventail de scénarii quotidiens alors que les tests de laboratoire sont conçus délibérément pour évaluer des habiletés très spécifiques’» . De plus, les situations quotidiennes sont, par définition, nettement plus complexes que les situations contrôlées de laboratoire et font intervenir un grand nombre de variables susceptibles d'influencer la performance mnésique : modifications rapides des contextes et présence importantes d'indices contextuels, diversité et quantité des informations à traiter (combinaison de modalités d'encodage), distraction et stress plus importants, effets du moment de la journée, aides à la mémoire plus nombreuses, importance de la motivation et pertinence des situations par rapport à l'individu... En résumé, l'étude expérimentale et l'auto-évaluation de la performance mnésique quotidienne ne s'adressent pas à la même réalité. L'observation de coefficients de validité plus forts lorsque les tâches se ressemblent vient conforter cette hypothèse.

Comme nous l'avons vu au paragraphe précédent, les questionnaires d'auto-évaluations restent très utiles pour identifier les croyances et connaissances que possèdent les sujets sur le fonctionnement de la mémoire et plus globalement, pour identifier les multiples dimensions du concept de métamémoire. Or, l'existence de différentes dimensions dans la métamémoire a précisément été invoquée pour expliquer le manque de validité prédictive des outils.