7.1. Notions et définitions

Beaucoup de notions issues du paradigme de la docimologie sont au centre de travaux sur la validation des outils d’évaluation.

‘« La critique docimologique se place à l’intérieur du système des examens, admis a priori, et cherche à l’améliorer en mesurant les divergences entre examinateurs et en faisant intervenir des processus de correction de ces divergences basés sur la statistique ». (Chastrette, 1989, p.77)’

La recherche de la « vraie mesure » devient alors l’objectif de ces études. Des critères tels que la fiabilité, la fidélité, la reproductibilité, la pertinence, ou encore la validité, correspondant à l’estimation de l’erreur de la mesure selon différentes sources, permettent d’apprécier la qualité d’un outil d’évaluation (Chastrette, 1989). Ceux-là correspondent à des conditions posées sur les résultats issus du traitement statistique des réponses. La théorie de la généralisibilté (Cronbach et al., 1972 ; Cardinet et al., 2003) tente d’unifier ces différentes sources d’erreur.

‘« Ainsi, par exemple, le score obtenu par un élève à une épreuve varie selon les questions posées, les correcteurs choisis, les moments d’évaluation, etc. » (Mokonzi, 2003)’

Ces critères sont utiles à la validation d’un outil dont l’objectif est de fournir un classement des élèves ou de les situer par rapport à une norme fixée.

Si l’objectif d’évaluation est plutôt de s’assurer que chaque élève, individuellement, a compris tel ou tel concept, on trouve d’autres modes de validation. Ainsi, Black (1998b) donne un autre critère de fiabilité :

‘« Students’ performances are so variable between different task contexts that the average over tasks must be taken to achieve even a modest level of reliability (Shavelson et al., 1993) » (p.815)’

Un élève peut avoir un manque de compréhension et réussir un examen (parce qu’il maîtrise bien les règles de cet examen). Cela a été constaté par de nombreux auteurs (McDermott, 1993 ; Hobden, 1998 ; Rump et al., 2002). On peut imaginer que cet examen reste malgré tout parfaitement adapté pour classer les élèves. Il n’est cependant pas un bon indicateur de la compréhension. La validation s’oriente alors plus vers l’analyse du contenu des questions et les procédures de résolution mises en jeu par l’élève.