2.2.4.3011Les jugements réalisés sur chaque item

Dans le cas de l'évaluation prospective, on peut identifier une diversité de jugements. Nelson et Narens (1994) décrivent trois catégories de jugements prospectifs de performance qui ne sont pas nécessairement corrélés les uns avec les autres, car ils ne se basent pas sur les mêmes indices d'information (voir § 2.3.5.2) :

Il n'existe pas de différence fondamentale dans la méthode de recueil des évaluations dans ce type de situation et dans les questionnaires précédemment décrits. Les sujets sont amenés à fournir une réponse en utilisant une échelle de jugement. Le plus souvent, la réponse constitue une estimation de probabilité ou un positionnement sur une échelle de type Likert. Dans le premier cas, le sujet doit établir la probabilité d'un événement (chances de réussite comprises entre 0 et 100) ou la force associée à une réponse (degré de certitude). Quant aux jugements sur échelles multi-points, ils estiment soit une intensité (force de la familiarité, de la difficulté, de la satisfaction ; Efklides et al.,1999), une qualité (bon ... mauvais) ou une certitude (« pas sûr du tout» ... « absolument certain»  ; Huet et Marquié, 1999 ; Lovelace, 1984 ; Tiberghien, 1971). Plus rarement, des évaluations comparatives, tels le classement ou la comparaison par paires, sont effectuées entre plusieurs items selon l'intensité du jugement (i.e., de la difficulté ou du FOK) ou entre plusieurs stratégies selon leur utilisation effective.

Les jugements sur échelles effectués pour un ensemble d'items individuels offrent la possibilité d'effectuer des calculs d'association entre la prédiction ou l'évaluation du sujet et sa performance réelle. Cette mesure d'association, équivalente à une corrélation (Nelson, 198473), permet directement de tester l'hypothèse de la cohérence entre la connaissance du sujet et sa performance réelle. En d'autres termes, cette mesure permet de dire si le sujet parvient à discriminer, par ses jugements, les items qu'il a effectivement mémorisés et ceux qu'il a oubliés. On parle d'exactitude de discrimination ou de résolution 74 (Koriat et Goldsmith, 1996b). En cas d'utilisation d'échelles de probabilités, une mesure complémentaire de calibration des jugements sera effectuée afin de déterminer la correspondance absolue entre les jugements subjectifs et la performance réelle. Il s'agit ici de déterminer si dans l'ensemble, les individus sont capables d'estimer, par leurs jugements, la distribution de leur performance 75 (Lichtenstein, Fischhoff et Phillips, 1982). Les deux indices de relation entre jugements et performance devraient être utilisés systématiquement car ils ne mesurent pas les mêmes opérations d'évaluation. Le coefficient G est une mesure relative qui permet de savoir si un sujet est capable ou non de discriminer des items ayant un statut mnésique différent (présent/absent) ; il n'implique pas nécessairement une bonne calibration : il suffit en effet que toutes les bonnes réponses reçoivent une évaluation identique et légèrement supérieure à celle des réponses fausses pour que la résolution soit parfaite. La courbe de calibration, ou ses indices dérivés (Oskamp, 1962) permet de saisir la finesse des jugements prédictifs et évaluatifs. Cependant, une bonne calibration n'implique pas nécessairement une bonne discrimination : en effet, pour un niveau déterminé de probabilité estimée, admettons 60%, pour reprendre l'exemple de Koriat et Goldsmith (1996b), si le sujet a effectivement une performance de 60% de réponses correctes, ses évaluations ne permettent pas de distinguer les réponses correctes des réponses incorrectes puisque toutes ont reçu le même jugement de probabilité.

Notes
73.

Il existe un certain nombre de coefficients d'association, mais le paramètre le plus usité et le plus performant dans ce type de recherche est le coefficient gamma (G) de Goodman et Kruskal.

74.

Lovelace (1984) utilise le quotient d'exactitude prédictive (Predictive Accuracy Quotient ou PAC), mettant en rapport l'écart « prédiction moyenne des items rappelés moins prédiction des items non rappelés» avec la variance commune des prédictions. Cet indice mesure également la capacité de discrimination.

75.

. Prenons l'exemple, d'une échelle de probabilité en 11 points allant de 0% à 100% et traduisant la chance de pouvoir se souvenir d'une information lors d'un test futur. Pour chaque item d'une liste, les sujets sont invités à fournir une valeur en utilisant cette échelle. On calcule ensuite, pour chaque valeur de probabilité estimée, la proportion correcte réelle de rappel. En principe, dans le cas d'une calibration optimale, la probabilité donnée à un ensemble d'items d'un même niveau devrait être la même que la probabilité d'avoir une bonne réponse sur ce même ensemble : les items jugés avec une probabilité de 0% devraient tous être oubliés, 20% des items jugés avec une probabilité de 20% devraient être effectivement rappelés..., tous les items jugés comme sûrs à 100% devraient effectivement être retrouvés.