Chapitre 12 : Validation

Fonctionnalité

1.1. L’utilisation de nos tests dans des classes

Comme nous l’avons indiqué dans le chapitre « Méthodologie », le premier critère de validation est que nos tests soient utilisables dans les classes et fonctionnels pour l’enseignant.

Lorsque nous avons proposé nos tests aux enseignants A et B, ceux-ci ne nous ont pas demandé d’apporter des modifications majeures pour les faire passer dans leur(s) classe(s). Nous avons ensemble apporté quelques changements à ces tests. Nous avons tenu compte de leur expérience pour sélectionner les exercices afin que le poids des composantes dans l’évaluation respecte le poids de ceux-ci dans l’enseignement. Nous nous sommes assurés que cela n’empêchait pas l’évaluation de la cohérence et que chaque composante était évaluée plusieurs fois. Un de leur critère dans la sélection des exercices était que l’ensemble du test soit réalisable dans le temps imparti. Ils nous ont ainsi demandé de mettre deux questions du test 2 en bonus en pensant que le devoir serait un peu long pour une heure et que cela faisait beaucoup de questions sur le principe des actions réciproques (qui n’est pas au programme). Les enseignants A et B ont donc accepté de faire passer nos tests dans leur classe sans modifier la formulation ni la forme des questions. Il semble donc que l’originalité de nos tests ne soit pas un obstacle à leur utilisation en classe. On pourrait objecter à cette première validation le fait que les enseignants A et B avaient l’habitude de travailler avec nous et qu’ils étaient probablement assez ouverts et prêts à modifier leurs pratiques. Cependant, pour le test 4, treize enseignants, dont certains n’avaient jamais travaillé avec nous et n’utilisaient pas nos séquences, ont accepté de faire passer ce test dans leur(s) classe(s) sans aucune modification et en donnant une note (le Tableau 9-3 présente uniquement les données recueillies pour les neuf enseignants sélectionnés).

Malgré leur originalité, les tests que nous avons développés semblent donc pouvoir être utilisés par des enseignants comme un devoir surveillé habituel.

Nous avons vu dans le cadre théorique et dans la partie « Production des tests » les caractéristiques d’un devoir surveillé. Il est important de vérifier que nos tests présentent ces caractéristiques.

Nous avons vu que chaque devoir surveillé avait un contenu précis, défini dans le programme de révision. A chacun de nos tests, on peut faire correspondre un programme de révision explicite et en lien avec la séquence (programme défini à partir des différents chapitres). Le programme de révision du test 1 correspond à la partie 1 de l’enseignement « Description d’un mouvement avec un modèle ». Celui du test 2 correspond à la partie 2 « Interactions et forces ». Celui des test 3 et 4 correspond aux parties 1, 2 et 3 (« Lois de la mécanique »).

Il est important de vérifier que l’énoncé est compréhensible par les élèves. En faisant réaliser ces tests par une centaine d’élèves au minimum, nous nous sommes assurés que les élèves ont pu répondre à tous les exercices. Les enseignants nous ont affirmé que les élèves n’avaient pas posé de questions relatives à des difficultés de compréhension de l’énoncé.

Pour être fonctionnel, un devoir surveillé (à fonction sommative) doit être réalisable par la quasi-totalité des élèves dans le temps imparti. Nous avons évoqué ci-dessus le rôle de l’expérience des enseignants pour faire en sorte que ces tests soient réalisables dans un temps compris entre 30 minutes et une heure (selon les tests). Dans l’ensemble des classes, la quasi-totalité des élèves a répondu dans le temps imparti.

Enfin, un devoir surveillé doit aussi permettre à l’enseignant de donner une note à l’élève, note qui participe à la moyenne du trimestre en physique. Nous n’avons pas donné de barème. Chaque enseignant était libre de construire son propre barème afin de mettre un plus grand poids aux aspects qui lui semblaient important. Tous les enseignants ont pu réaliser un barème (cf. quelques exemples en Annexes) et noter les copies. Ce point était fondamental pour la validation de la fonction sommative de nos tests comme outils d’évaluation.

Nos tests présentent donc les caractéristiques essentielles des devoirs surveillés et se sont avérés utilisables et fonctionnels pour une quinzaine d’enseignants.

On peut remarquer certaines limites à cette fonctionnalité :

certains enseignants peuvent être réticents à la forme QCM (tous les enseignants à qui nous l’avons proposée l’ont acceptée mais il s’agit seulement de treize enseignants) ;
nous avons choisi de faire des tests où l’élève écrivait sa réponse directement sur la feuille. Nous avons fait ce choix pour pouvoir photocopier facilement les réponses des élèves mais cela est très coûteux en photocopies pour les enseignants (deux feuilles par élève pour chaque test au lieu d’une habituellement). Il serait possible de réduire légèrement l’énoncé en demandant aux élèves de répondre sur une copie pour certaines questions. Cependant, cette forme permet un gain de temps pour l’élève, ce qui nous permet de lui poser plus de questions et réduit l’influence de la rédaction sur le jugement de l’enseignant ;
la dernière limite est la plus importante. Nos tests ne permettent pas d’évaluer certains aspects que l’enseignant évalue habituellement. L’enseignant doit par exemple vérifier la capacité de l’élève à répondre à un problème en argumentant ses réponses, en appliquant un raisonnement structuré et en réalisant éventuellement des calculs. Nos tests ne sont donc sûrement pas suffisants pour une évaluation sommative traditionnelle.