Commentaires

Les grilles présentées ci-dessus ont toutes été utilisées lors de la correction des examens dans les pays et à l’époque indiqués. L’une des nouveautés du DELF et du DALF dans le domaine des certifications était en effet la volonté de décentralisation, qui permettait à chaque pays organisateur de sessions de concevoir ses propres sujets afin de les adapter à son public. La seule condition était de respecter la forme des épreuves (nombre, nature et coefficient) telle qu’elle avait été définie par la Commission Nationale du DELF et du DALF et fixée par arrêté ministériel. Par ailleurs, la Commission vérifiait l’adéquation des sujets proposés en termes d’objectifs, format et niveau avant que ces sujets ne soient utilisés lors des sessions d’examens. Il en était de même des grilles d’évaluation : la Commission Nationale proposait des grilles-types, mais les commissions régionales avaient la possibilité de les utiliser telles quelles, ou en les modifiant, ou même d’utiliser une toute autre grille.

Nous avons ci-dessus plusieurs exemples, provenant de trois pays différents. Deux grilles correspondent en majeure partie à celles proposées par la Commission nationale, ce sont les grilles d’évaluation de la synthèse du Mexique et du Maroc ; les autres sont totalement différentes. Dans cette dernière catégorie, on pourrait dire que les grilles produites pour le Brésil sont les plus communicatives, car elles n’accordent que sept points sur vingt à la compétence linguistique ; au contraire, la grille d’évaluation du compte-rendu du Mexique est assez normative quand celle du Maroc équilibre parfaitement les points entre les savoir-faire et la compétence linguistique.

Ce sont cependant les grilles se rapprochant de celles proposées par la Commission Nationale qui nous intéressent le plus. Nous pouvons en effet y constater que la distribution des points de l’enveloppe consacrée aux savoir-faire n’est pas identique : la sélection des informations et idées essentielles est notée sur deux points au Mexique, alors que le Maroc lui en accorde trois ; de même, l’aptitude à reformuler et synthétiser ces idées vaut trois points au Mexique et seulement deux au Maroc.

A partir de ces deux exemples pourrait se poser la question de l’égalité dans l’évaluation, et par là-même celle de la fiabilité, c’est-à-dire ce qui fait « la note "vraie", celle qui serait débarrassée de toute erreur de mesure » (Gomez-Pescie 1991 : 237). La Commission Nationale a certes opté ces dernières années pour la centralisation afin de réduire les différences entre les examens de même niveau produits à différents endroits, mais les grilles de correction telles quelles sont présentées ne risquent-elles pas de provoquer des situations identiques à celles des exemples ci-dessus ? En effet, attribuer un certain nombre de points pour une catégorie subdivisée en critères amène forcément à distribuer ces points entre lesdits critères ; or, comment savoir si cette répartition se fera strictement de la même façon ? Comment être sûr qu’une commission régionale n’attribuera pas par exemple trois points à la reformulation des idées tandis que les autres commissions ne lui en accorderont que deux ? On pourrait penser que les habitudes de correction ne seront pas forcément remises en cause avec les grilles désormais imposées de la Commission Nationale du DELF et du DALF. Nous ne voulons pas dire par là que les commissions régionales continueront à utiliser leurs propres grilles, mais que celles qui disposaient de critères d’évaluation proches de la grille-type de la Commission Nationale ne modifieront peut-être pas la répartition des points par critères qu’elles utilisaient avant, par commodité (si c’était une pratique bien ancrée), voire par habitude. Pour reprendre nos exemples, on pourrait supposer qu’au Mexique, la sélection des idées essentielles et la capacité à reformuler (présentes sur la grille actuelle de la Commission Nationale) continueraient à être notées respectivement 2 et 3 points, comme sur son ancienne grille ; de même, au Maroc, ces deux savoir-faire pourraient tout à fait être notés respectivement 3 et 2 points comme avant, même si c’est la grille de la Commission Nationale qui est utilisée. Il y aurait donc dans ces conditions des différences dans la manière d’évaluer des candidats au même examen. Ne serait-ce pas remettre en cause la fiabilité voulue lors de la création du DELF et du DALF ?

On sait que malgré les grilles de notation et les barèmes, il reste toujours une part de subjectivité dans l’évaluation de la production écrite ou orale ; nous reprenons ici Luis Gomez-Pescie, lorsqu’il dit des grilles de correction qu’« [elles] ne représent[ent] pas l’objectivité, elle[s] [ne sont] que la canalisation de la subjectivité » (1991 : 224) ²⁰ . Or la subjectivité entache la fiabilité de l’évaluation, puisqu’elle fausse la mesure. Cependant, d’autres facteurs entrent en jeu, qui nuisent aussi à la fiabilité mais dont la connaissance et la conscience peuvent amenuiser les conséquences : effet de projection (cas spécifique d’examens capitalisables tels que le DELF et le DALF, où chaque unité a ses propres objectifs, qu’il ne faut pas projeter sur les autres niveaux), de « halo », de contraste, de saturation, d’atténuation, sur- ou sous-évaluation de certaines erreurs, sévérité ou indulgence extrêmes, ordre dans la série, place et quantité des fautes dans la copie, moment et conditions de la correction ²¹ , … Nous ne souhaitons pas entrer plus avant dans la description et l’explicitation de ces phénomènes que la docimologie étudie, car là n’est pas notre propos. Nous voulons seulement garder à l’esprit ces paramètres qu’il est impossible de faire disparaître et qui subsisteront dans toute évaluation d’une production suite à une question ouverte. Autrement dit, nulle évaluation d’une production écrite ou orale ne sera fiable à cent pour cent du fait de ces paramètres. Cependant, on pourrait certainement gagner plus de fiabilité en réduisant le nombre d’éléments trop subjectifs des grilles d’évaluation, car les paramètres évoqués plus haut, appelés aussi « variations intra-individuelles » par Gomez-Pescie, sont provoqués selon ce dernier « en général [par] l’absence ou [le] manque de précision des critères de correction » (1991 : 228) ; on pourrait généraliser et penser que ces phénomènes sont encore augmentés par l’absence de critères partagés. D’où, pour revenir au sujet qui nous intéresse, la nécessité de réduire la marge de liberté laissée aux correcteurs du DALF en utilisant des critères plus précis ou du moins en imposant une distribution précise des points par critère d’évaluation. Et c’est ce qui nous amène à proposer une nouvelle formulation des grilles d’évaluation des épreuves de compte-rendu et synthèse du DALF.

Notes

20.

Citation complète et en contexte : « S’il est possible d’établir des critères objectifs pour un certain nombre d’éléments quantifiables, noter par exemple la maîtrise du système verbal (le nombre de points étant en relation avec le nombre et le type de fautes) ; et de procéder de la même façon pour les accords, la syntaxe ou les relations logiques, comment "noter" la richesse lexicale ou l’originalité de la copie ? Ces deux derniers paramètres seront jugés selon des critères qualitatifs non codifiables, ayant des répercussions très subjectives sur la "moyenne". D’autre part, comme il est impossible de prendre en considération un très grand nombre de critères sans alourdir exagérément une grille, le nombre et le type de critères retenus le sont d’une façon arbitraire. Le barème adopté est nécessairement lui aussi arbitraire, donc subjectif. En effet, partager la note en quatre "tranches" de 5 points chacune ne conduira pas nécessairement à une notation objective, de l’addition de plusieurs notes subjectives ne peut résulter qu’une note sur 20 toujours subjective. Une grille de correction ne représente pas l’objectivité, elle n’est que la canalisation de la subjectivité. Il s’agit d’une inter-subjectivité partagée, assumée, par les concepteurs-utilisateurs de la grille. »

21.

Cf. Dayez (2003 : 22-23), Gomez-Pescie (1991 : 227-228) ; Tagliante (1991 : 27-28) ; Merle reprenant les travaux de Bonniol (1998 : 16-17)