6.5.1.2011Moyennes des prédictions en fonction des évaluations qualitatives

Si l'on se penche sur les valeurs moyennes de prédiction correspondant à chacun des cinq niveaux de l'évaluation, on constate en effet qu'une proportion de 50% est généralement évaluée comme moyenne (annexe 6.17). Pour la seconde prédiction, cette proportion tombe aux alentours de 33% dans les deux groupes soumis à la tâche d'orientation (34,23% et 32,30% respectivement) alors qu'elle se maintient à 50% dans le groupe contrôle (51,67%).

message URL FIGURE64.gif
Figure 6. 19 : Prédictions moyennes (P1) pour chaque niveau d'évaluation qualitative (EVA1) et chaque groupe de sujets (consignes d'encodage). Les chiffres présentés au côté de chaque point indiquent le nombre de sujets concernés.

Du fait des effectifs inégaux, nous avons procédé à des comparaisons deux à deux des moyennes en utilisant le test t de Student sur petits échantillons indépendants152 (annexe 6.17). Les cases où l'effectif est inférieur à 5 n'ont pas été prises en compte.

Pour le groupe incident, l'évaluation qualitative différencie significativement deux niveaux de performances prédites (t(30)=-3,64, p<.01). Les sujets qui trouvent leur performance prédite moyenne prédisent effectivement un meilleur rappel que les sujets qui évaluent leur prédiction comme mauvaise (figure 6.19). Ces 2 niveaux d'évaluation sont choisis par 32 sujet sur 37.

Les sujets du groupe intentionnel et du groupe contrôle ne montrent pas de discrimination dans les performances prédites (respectivement t(32)=-0,98, ns et t(35)=-0,81, ns). Il semblerait que leurs prédictions soient jugées avec moins d'objectivité.

Sur l'ensemble des sujets, seuls les niveaux d'évaluation « mauvais» et « moyen» se différencient par la quantité de mots prédits (t(101)=-2,24, p<.05). Il est important de noter que 93% des sujets choisissent l'un ou l'autre de ces deux niveaux d'évaluation ; la présentation d'une échelle d'évaluation en cinq points se révèle donc inefficace.

Le nombre moyen de mots prédits par les sujets de chaque groupe n'est pas identique pour un même niveau d'évaluation qualitative. Les sujets du groupe contrôle font des prédictions supérieures à celles des sujets des deux autres groupes, que la performance prédite soit jugée mauvaise (tincident(26)=-4,28, p<.01 et tintentionnel(26)=-2,98, p<.01) ou moyenne (tincident(39)=-2,44, p<.02 et tintentionnel(41)=-3,66, p<.01). Les sujets du groupe avec encodage intentionnel tendent à prédire un plus grand nombre de mots que ceux du groupe avec encodage incident pour le niveau d'évaluation « mauvais» (t(24)=-1,89, p<.10).

Nous avons souligné précédemment qu'il n'existe pas de différence entre les trois groupes dans les évaluations qualitatives moyennes. Les sujets évaluent de manière identique des performances prédites qui varient par contre dans une large mesure. Ces nouvelles données confirment que les prédictions sont réalisées à partir de l'expérience des sujets avec le matériel à mémoriser alors que les évaluations qualitatives de ces performances sont indépendantes des conditions de l'expérience. Les sujets ne disposent pas de données susceptibles de les renseigner sur la qualité objective d'une performance prédite. Aussi, utilisent-ils massivement deux niveaux d'évaluations sur les cinq proposés. Cette observation remet en question l'utilisation des jugements effectués sans référence à des données objectives (normes, résultat obtenu à une tâche similaire antérieure...).

Nous avons considéré la proportion prédite (PP1) plutôt que le nombre de mots bruts, car il est possible que l'évaluation qualitative émise sur cette base permette de mieux discriminer les niveaux de performance (figure 6.20).

message URL FIGURE65.gif
Figure 6. 20 : Prédiction moyenne (PP1) pour chaque niveau d'évaluation qualitative (EVA1) et chaque groupe de sujets (consignes d'encodage). Les chiffres présentés au côté de chaque point indiquent le nombre de sujets concernés.

Pour le groupe incident et pour le groupe contrôle, on trouve une discrimination de deux niveaux de performance prédite (tincident(30)=-2,28, p<.05 et tcontrôle(35)=-2,71, p<.02). En moyenne, les meilleures performances prédites sont jugées de meilleure qualité que des performances prédites plus faibles (figure 6.20). Ce phénomène reste absent dans le groupe avec encodage intentionnel et tâche d'orientation (tintentionnel(32)=-1,00, ns). Les sujets de ce groupe semblent avoir des difficultés à estimer la qualité d'une proportion de rappel futur : ils sous-estiment leur efficacité.

Sur l'ensemble des sujets, les prédictions classées dans le niveau « mauvais» (.42) s'écartent significativement de celles classées dans le niveau « bon» (.56 ; t(45)=-2,31, p<.05).

Pour une proportion prédite jugée « mauvaise» , seuls les groupes incident et contrôle font des prédictions différentes (t(26)=-2,96, p<.01). Pour chaque groupe, les proportions prédites de rappel sont en moyenne de .34, .42 et .48. Pour une proportion jugée « moyenne» , le groupe contrôle prédit significativement un meilleur rappel que les deux autres groupes (tincident(39)=-3,47, p<.01 et tintentionnel(41)=-3,00, p<.01).

La deuxième prédiction de performance (réalisée avec comme base de jugement, le nombre réel de mots présentés) donne lieu à des évaluations qualitatives différentes de celles portant sur la première prédiction, et ce pour les trois groupes de sujets (figure 6.21 et annexe 6.17).

message URL FIGURE66.gif
Figure 6. 21 : Prédiction moyenne (P2) pour chaque niveau d'évaluation qualitative (EVA2) et chaque groupe de sujets (consignes d'encodage). Les chiffres présentés au côté de chaque point indiquent le nombre de sujets concernés.

Pour les groupes incident et intentionnel, les niveaux « mauvais» et « moyen» ne différencient pas deux niveaux distincts de performances prédites (tincident(25)=-0,98, ns, et tintentionnel(26)=-1,02, ns). Par contre, les sujets de ces groupes parviennent à dissocier les niveaux « très mauvais» et « moyen» (tincident(18)=-2,16, p<.05 et tintentionnel(18)=-1,86, p<.10). Seul le groupe incident tend à discriminer, à partir des valeurs de ses prédictions, les niveaux d'évaluation « très mauvais» et « mauvais» (tincident(15)=-1,93, p<.10 versus tintentionnel(20)=-1,17, ns).

Dans le groupe contrôle, les performances évaluées comme « mauvaises» sont effectivement plus basses que celles évaluées comme « moyennes» (t(33)=-2,79, p<.01).

Sur l'ensemble des sujets, concernant la deuxième prédiction, on s'aperçoit que la perception de la qualité des performances prédites s'organise en trois niveaux clairement distincts : très mauvaise, mauvaise et moyenne. L'apparition d'une troisième catégorie d'évaluation (très mauvaise) émane de la baisse de performance attendue (en termes de proportion) à laquelle les sujets sont contraints dans la seconde phase de prédiction. En effet, cette nouvelle catégorie est principalement choisie par les sujets des groupes soumis, lors de l'encodage, à la tâche d'orientation (incident et intentionnel), qui, ayant largement sous-estimé le nombre de mots réellement présentés153, ont été amenés à produire une seconde prédiction très inférieure à 50%.

La confrontation des prédictions et des évaluations qualitatives nous permet de conclure que, dans un groupe expérimental donné, il est possible de déceler deux ou trois niveaux d'évaluation différenciant de façon objective des niveaux de performance prédite. Cependant, nous apporterons trois réflexions pour moduler la cohérence ou la validité de l'évaluation qualitative :

  1. Le processus d'évaluation qualitative semble obéir à une classification grossière dichotomique, c'est-à-dire procédant d'un tri des informations à évaluer en deux catégories. L'utilisation des cinq niveaux de l'échelle n'est pas optimale. Visiblement, le manque d'expérience avec ce type de tâche de laboratoire est responsable des patrons d'évaluation.

  2. Le processus d'évaluation est sensible aux manipulations expérimentales. En effet, les sujets du groupe « encodage intentionnel + tâche d'orientation» ne parviennent pas à attribuer (de façon objective) des niveaux de performance différents à des niveaux de qualité différents. En réalité, ils ont tendance à sous-estimer la qualité de leur performance prédite. Cela signifie qu'à prédiction égale, certains sujets vont juger cette performance comme « mauvaise» , alors que leurs pairs la jugeront « moyenne» . Comme tentative d'explication, nous pourrions souligner une plus grande « frustration» chez certains de ces sujets avertis à l'avance de l'existence d'un test, mais soumis parallèlement à des conditions d'encodage peu propices à la mise en oeuvre de processus mnésiques efficaces. La frustration pourrait se manifester à travers le jugement d'évaluation, par une sous-estimation des capacités à réussir la tâche et par une perception erronée du niveau de performance moyen pouvant être atteint dans cette situation. Les sujets montrent des difficultés à prendre en compte les caractéristiques de la situation dans leurs jugements.

De plus, subissant deux tâches de prédiction consécutives, les sujets n'évaluent pas de façon identique leurs performances prédites. Au cours de la seconde prédiction, les performances sont jugées par certains sujets (il est vrai peu nombreux) dans une troisième catégorie, peu utilisée précédemment (« très mauvaise» ). Dans ce cas, l'évaluation est sujette au biais représentationnel qui consiste à croire qu'une performance de 50% est une performance moyenne, et que toute proportion inférieure à 50% doit être jugée comme mauvaise. La seconde évaluation, comme la prédiction, est effectuée en référence à l'évaluation précédente.

(3) Les sujets appartenant à des groupes expérimentaux distincts classent dans une même catégorie d'évaluation des performances prédites de niveaux différents. Le processus d'évaluation qualitative semble être identique dans les différentes conditions expérimentales, indépendamment des valeurs prises par les informations à évaluer. Dans l'absolu, sur l'ensemble des sujets, les performances prédites ne sont pas réparties de façon objective sur l'échelle de qualité. Si les prédictions chiffrées sont faites, au moins en partie (groupe contrôle), sur la base des connaissances acquises en cours d'expérience, les évaluations qualitatives repose plutôt sur un biais associant le concept « moyen» à « la moitié» .

Notes
152.
message URL EQUA02.gif
153.

En moyenne, les groupes « incident» et « intentionnel» estiment que 20,70 et 19,97 mots leur ont été présentés alors que les sujets contrôles font une estimation de 23,82 mots.