Conclusion

Tout au long de ce travail, nous nous sommes efforcée de répondre à des interrogations dont les ébauches étaient apparues à l’heure même où nous exercions comme enseignante dans un cours de préparation au DALF et que nous étions régulièrement membre du jury pour les épreuves du DELF-DALF. L’écart qui nous semble exister entre des textes officiels consensuels et des pratiques bien réelles est depuis longtemps pour nous une source d’interrogations, voire parfois d’incompréhension engendrant un sentiment d’inconfort.

En réalisant ce travail, nous avons essayé, un peu égoïstement il est vrai, de contribuer en quelque sorte à l’atténuation de ces impressions négatives, en prenant la place du concepteur des grilles d’évaluation et en changeant les éléments qui nous paraissaient la source du problème. Afin que notre démarche ne souffre pas de points de vue trop personnels et tranchés, nous avons souhaité nous appuyer sur l’analyse des objectifs institutionnels des épreuves concernées et celle de ressources authentiques aimablement confiées par le CIEP. Cela nous a permis de confronter nos propres représentations au résultat des analyses. Même si les conclusions obtenues se rejoignent, la simple critique d’un objet n’est pas suffisante. Il faut essayer d’identifier les raisons de cette critique et de résoudre les problèmes rencontrés.

Force est de constater que la tâche du concepteur est très délicate et complexe, car il faut tenir compte de nombreux critères et trouver une solution qui permette de tous les concilier. Si on ajoute à cela la nécessité de produire une grille qui soit compréhensible et fonctionnelle (si la formulation est claire pour le concepteur, elle ne l’est pas forcément pour les utilisateurs), sans risque d’ambiguïté ou de mauvaise interprétation, lisible et synthétique, on se rendra aisément compte de l’ampleur et de la difficulté de la tâche du concepteur. Malgré notre inexpérience en ce domaine, nous avons essayé de faire de notre mieux pour formuler des grilles innovantes, répondant à une liste de critères rigoureusement justifiés (l’adéquation aux épreuves évaluées, la perspective offerte par l’harmonisation des examens avec le Cadre européen commun de référence, la recherche de la fiabilité par de nouveaux choix d’évaluation imposés par nos réflexions et l’analyse du corpus).

Les résultats obtenus, bien que très partiels, nous semblent encourageants : c’est la première fois que nous tentons ce genre d’expérience et les correcteurs consultés semblent adhérer à notre démarche évaluative. Nous sommes bien évidemment consciente d’une part, que les conclusions ne sont pas très représentatives du fait du petit nombre de participants, et d’autre part, que nos grilles ne sont pas exemptes de lacunes ou autres dysfonctionnements. Si l’on pouvait approfondir la recherche, d’autres critiques apparaîtraient sans doute et celles déjà connues seraient certainement à nouveau émises.

D’autre part, nous regrettons de ne pas avoir pu tester l’apport de nos grilles pour la recherche de la stabilisation des résultats. Il nous a semblé plus judicieux d’émettre une grille fonctionnelle avant de tester sa fiabilité : si les grilles ne sont pas bien conçues et donc inutilisables telles quelles, il est vain de vouloir chercher à mesurer en quoi elles contribuent à diminuer les écarts de notation. En outre, plus de trois correcteurs sont nécessaires pour envisager de tester véritablement la fiabilité d’un outil d’évaluation. Dans le temps qui nous était imparti, il aurait été très difficile d’expérimenter sérieusement d’abord la fonctionnalité des grilles, qui suppose un aménagement en fonction des résultats obtenus, puis leur fiabilité. Comme ces deux expérimentations successives ne pouvaient pas être menées dans le cadre de ce mémoire, il nous a semblé qu’il valait mieux nous concentrer sur le premier aspect et sacrifier le second, plutôt que d’exposer de manière superficielle des résultats non représentatifs et non attestés par des preuves suffisantes.

Nous sommes satisfaite d’avoir pu tester les grilles que nous avons conçues, bien que nous soyons consciente du fait que les conclusions dont nous avons fait part ci-dessus sont très partielles. Mais il est toujours intéressant d’expérimenter ce qu’on a imaginé, et nous apprécions d’avoir pu faire cette expérience, même si elle a eu lieu à une échelle microscopique. Peut-être mériterait-elle d’être poursuivie une fois les corrections nécessaires apportées aux grilles ? Si elle était faite à une plus grande échelle, serait-il possible de voir si les grilles ainsi détaillées contribuent vraiment à une plus grande fiabilité des résultats ? Tout cela relève bien sûr de la pure hypothèse…