Fiabilité de l’évaluation

Selon le CECRL, la fiabilité est « la mesure selon laquelle on retrouvera le même classement des candidats dans deux passations (réelles ou simulées) des mêmes épreuves » (p. 135). La tentative de réduction des erreurs de mesures inhérentes à l’évaluation va de pair avec la formulation de nouvelles grilles, puisque celles-ci doivent être plus précises et performantes que les précédentes. C’est dans cet ordre d’idées que nous reprenons les indications du CECRL, que nous essaierons de respecter :
‘« Le poids de la subjectivité sur l’évaluation peut être diminué et, en conséquence, la validité et la fiabilité augmentées, en appliquant la démarche suivante :
- développer une spécification du contenu de l’évaluation fondée, par exemple, sur un cadre de référence commun au contexte en question ;
- utiliser la négociation ou les jugements collectifs pour sélectionner le contenu et/ou noter les performances ;
- adopter des procédures normalisées relatives à la passation des tests ;
- fournir des grilles de correction précises pour les tests indirects et baser l’évaluation des tests directs sur des critères de correction clairement définis ²⁷ ;
- exiger des jugements multiples et/ou l’analyse de différents facteurs ;
- mettre en place une double correction ou une correction automatique lorsque c’est possible ;
- assurer une formation relative aux barèmes de correction ;
- vérifier la qualité de l’évaluation (validité, fiabilité) par l’analyse des résultats. » (p. 143).’
On peut remarquer que certaines recommandations sont déjà appliquées au DELF et au DALF : les jugements collectifs, les normes de passation des examens, les corrections multiples par exemple, bien que cela ne soit pas le cas dans chaque centre d’examen. D’autre part, avec la réforme de 2005 sera introduite une plus grande formation des examinateurs et correcteurs. Et quant à la spécification des critères visant à faire un cadre de référence commun aux examinateurs, nous sommes en train d’y travailler – en espérant pouvoir vérifier les résultats obtenus.

Cependant, il nous faut relativiser la notion de fiabilité : « malgré le développement d’instruments objectifs, fondés sur le morcellement méthodologique de l’objet linguistique et sur des principes de quantification qui paraissent en garantir l’objectivité, on doit bien admettre que mesurer de façon fiable le degré d’acquisition des compétences d’un apprenant reste une opération aux résultats pratiques bien incertains », expliquent Cuq et Gruca (2003 : 211). Même en recourant à des critères d’évaluation très détaillés, le risque d’obtenir des résultats non stables en fonction des correcteurs existe toujours, car « ce qui se dégage des études docimologiques, c’est que l’évaluation n’est pas une mesure mais une estimation : c’est la représentation par un chiffre de la « valeur » attribuée à une copie : elle vaut 13,50/20. Quels que soient la méthode utilisée, la grille de correction employée et le barème pratiqué, la note obtenue n’est que la représentation chiffrée d’un jugement forcément subjectif qu’on porte sur la valeur qualitative d’un travail ». (Gomez Pescie 1992 : 226), ce à quoi le même auteur ajoute en note : « Les grilles de correction, les barèmes permettent de canaliser cette subjectivité, de neutraliser ses excès, non de l’éliminer. ».

Merle (1998 : 12) va encore plus loin, en analysant les différences de notation existant avec l’emploi des demi-points. De cette analyse, nous ne gardons que la conclusion : « L’utilisation d’un barème de notation au point près, voire au demi-point près, ne constitue pas une garantie de précision de la correction. […] Finalement, la finesse d’un barème ne permet la précision de la notation que s’il existe une définition précise entre les différents correcteurs sur ce qui est attendu exactement […] Il ne faut pas attendre une grande efficacité de l’introduction d’un barème dans la correction d’une dissertation en dehors d’une socialisation longue des correcteurs à des exigences effectivement communes. ». Cependant, ses propos confirment la nécessité pour les différents correcteurs d’avoir des critères partagés – ce qui recoupe finalement les indications du CECRL.

En dernier lieu, il nous semble important de moduler la nécessité de recourir aux corrections multiples préconisée par le CECRL. Les spécialistes s’accordent en effet pour en montrer les limites, qui conduiraient à engager un nombre inimaginable (dans la pratique) de correcteurs afin d’obtenir une note débarrassée de toute erreur de jugement. Hadji (1997) introduit ainsi l’analyse de plusieurs expériences de corrections multiples : « Soit un objet à "mesurer" : une copie d’élève. Où est l’instrument ? Ce ne peut être que la personne du correcteur. Or, il est clair que cet instrument n’est pas fiable. Dès que l’on a voulu prendre plusieurs mesures différentes d’une même copie, on s’est rendu compte que les notes divergeaient, et souvent très largement. ». Ainsi, pour stabiliser une note et obtenir la « vraie », 78 correcteurs par copie de français sont nécessaires selon Piéron (cité in Gomez Pescie, op. cit. : 230-231 ; Langouet 1993 : 24-25 ; Merle 1998 : 9) ; plus tard, Bonniol arrivera de son côté au nombre de 468 correcteurs ! Il faut donc relativiser le pouvoir de la correction multiple dans l’augmentation de la fiabilité.

Notes

27.

« L’évaluation directe évalue ce que le candidat est en train de faire. Par exemple, lors d’un travail en sous-groupe qui consiste en une discussion, le professeur observe, confronte aux critères d’une grille et donne son évaluation. L’évaluation indirecte, en revanche, utilise un test, généralement écrit, qui évalue souvent les potentialités » (CECRL p. 141).