4.4. Différences entre les pratiques d’évaluation des enseignants et des chercheurs

Il est intéressant de noter que, dans les recherches en didactique, on évalue souvent les connaissances des élèves dans une discipline, par le biais de tests papier-crayon. Il n’y a pas de travaux à notre connaissance qui abordent les différences d’évaluation entre la pratique des chercheurs et la pratique des enseignants. De tels écarts de pratiques pour évaluer les élèves nous semblent pourtant être une question intéressante : Pourquoi est-il nécessaire de pratiquer deux évaluations différentes ? Dans quelle mesure est-il possible de « transférer » les méthodes utilisées par les chercheurs dans les classes ? Millar et Hames (2001a) se sont posés les mêmes questions au moment de la production d’outils d’évaluation inspirés de la pratique des chercheurs et utilisables dans les classes anglaises.

« Here, a ‘diagnostic question’ is one which can provide evidence of a learner’s understanding of a specific point or idea. […] This contrasts with the kinds of questions found in many tests and examinations, and in textbooks, which require the learner to draw together different pieces of knowledge and understanding in order to provide the expected answer. With such questions, it is difficult (perhaps impossible) to diagnose exactly what a learner’s difficulty or misunderstanding is when he/she does not give the expected answer. By contrast, a diagnostic question aims, so far is possible, to probe a single idea, so that the learner’s response can be more easily interpreted as evidence of correct understanding, or of a specific and identifiable misunderstanding. » (Millar et Hames, 2001a, pp.1-2)

La différence soulevée ici par Millar et Hames est que, dans les tests qu’ils proposent, les questions sont suffisamment ciblées pour permettre d’identifier l’origine des incompréhensions. Au contraire, les exercices plus traditionnels (que l’on trouve dans les manuels par exemple) nécessitent l’utilisation combinée de plusieurs connaissances et il est donc difficile de repérer les difficultés de l’élève si celui-ci n’a pas donné la bonne réponse.

L’écart entre les épreuves proposées par les chercheurs et celles proposées par les enseignants se manifeste par des différences de performances comme le souligne Millar et Hames (à paraître) :

‘« The bibliography developed by Pfundt and Duit, listing over 6000 sources in its most recent edition (Duit 2004), gives an indication of the scale of this research effort. Several of these studies have shown that many students who obtain satisfactory or good scores on typical end-of-course assessment tests are unable to give correct answers to probes of understanding of basic ideas and concepts (Mazur 1997; Redish 2003). The two kinds of assessment instrument are measuring different things. » (Millar et Hames, à paraître, Chapter 3)’

Nous présentons dans le Tableau 1-1 les quelques différences majeures qui existent selon nous entre ces deux pratiques (pour les chercheurs, nous avons considéré des tests de type questionnaires papier-crayon).

Tableau 1-1. Différences entre les pratiques d’évaluation des acquis des élèves chez les enseignants de physique-chimie et chez les chercheurs en didactique de la physique.
Pratique des enseignants	Pratique des chercheurs
Evaluation basée sur l’expérience	Evaluation basée sur des hypothèses théoriques
Dans le but de noter et d’avoir une rétroaction sur l’enseignement	Dans le but de répondre à des questions de recherche
Problèmes évaluant différentes compétences en même temps	Souvent questions courtes évaluant des aspects précis de concepts
Différents concepts évalués le plus souvent une seule fois (parfois deux)	Le même concept (ou aspect de concept) évalué plusieurs fois dans différentes situations
Différents domaines évalués, parfois même physique et chimie	Domaine évalué de la discipline délimité