7.2. Les méthodes de validation

On distingue deux méthodes de validation a posteriori (De Ketele et Gérard, à paraître) :

une validation interne à l’épreuve où on vérifie que les résultats présentent certaines caractéristiques ;
une validation externe où on vérifie que des résultats similaires seraient obtenus par une autre épreuve.

Pou valider un outil dont l’objectif est de classer et distinguer les élèves, de nombreux indices de validité existent. Ceux-ci correspondent majoritairement à une validation interne. Chastrette (1989) présente l’indice de facilité, c’est-à-dire le pourcentage d’élèves qui répondent correctement à la question, comme un critère de qualité d’un item de test. L’indice de facilité idéal serait ainsi situé entre 0,5 et 0,6. De même, l’indice de discrimination (différence entre les taux de réussite à un item particulier obtenus par le groupe des forts et le groupe des faibles) est un critère de qualité d’un item. La théorie de la généralisabilité fournit toute une série de traitements statistiques complexes basés sur des plans de mesure (Mokonzi, 2003) présentant les différentes sources d’erreur de mesure.

On peut cependant se demander si l’objectif de l’enseignement tel qu’il nous intéresse est vraiment de classer. C’est ce que souligne De Ketele et Gérard (à paraître) :

‘« Lorsqu’on utilise un test psychométrique, on s’attend à ce que la population cible soit distribuée selon une loi normale, ou courbe de Gauss […]. Cette logique « psychologique » est déterminée par le fait que l’on souhaite décrire une population et situer un individu dans la distribution, qui semble effectivement correspondre à une courbe de Gauss. […] La logique de l’éducation devrait donc être très différente parce qu’elle ne vise pas à décrire une population mais à agir sur elle. L’éducation scolaire a pour objectif que les élèves apprennent et que tous les élèves apprennent. La distribution attendue au terme d’un processus d’enseignement-apprentissage ne devrait donc pas – en bonne logique – être « normale », mais devrait correspondre à ce que l’on appelle une courbe en J, c’est-à-dire où il y a une majorité d’élèves qui ont acquis les objectifs fondamentaux visés et une minorité d’élèves qui n’ont pas atteint ces objectifs. » (De Ketele et Gérard, à paraître).’

Pour des évaluations dont l’objectif serait donc de s’assurer que l’évalué a bien compris les concepts en jeu dans les questions qu’il a réussies, il y a beaucoup moins de travaux de référence sur la validation. Schoultz et al. (2001) ont essayé de démontrer qu’un test validé par un traitement statistique (TIMSS) n’était pas valide dans le sens où les résultats trouvés à ce même test par un autre mode d’évaluation (l’entretien individuel) étaient meilleurs de manière significative. Il s’agit donc là d’une validation externe. Nous notons cependant que pour cette étude, des indications ont parfois été données aux élèves pendant l’entretien, ce qui pourrait expliquer les meilleurs résultats de l’échantillon considéré.

Afin de vérifier la validité de leur banque d’outils d’évaluation diagnostique, Millar et Hames (2001a) ont réalisé une étude pilote en posant quelques questions à un échantillon d’élèves puis en leur faisant passer des entretiens afin de vérifier l’interprétation faite à partir des réponses écrites. Pour s’assurer que les élèves ont compris, ces auteurs utilisent aussi la cohérence des réponses écrites des élèves à des questions considérées par les « experts » comme testant la même idée (« basic idea » dans le texte). Les auteurs déclarent que, pour affirmer l’acquisition d’une idée, un critère pourrait être un taux de réussite de 75% ou plus à un ensemble de dix questions (à l’intérieur d’un même test) évaluant la même idée.