12.4. Quels enseignements pour l’évaluation des environnements d’apprentissage ?

« There can be no doubt that evaluating ITS is costly, frustrating and time-consuming. » (Littman et Soloway, 1988)

12.4.1. Discussion des évaluations réalisées

Dans le cadre d’une conception itérative, nous avons conduit trois évaluations de Ambre-add en combinant différentes méthodes afin d’évaluer différents aspects du logiciel.

Une première expérience, consistant à observer individuellement 5 enfants a été menée afin d’évaluer l’utilisabilité et de détecter les difficultés d’utilisation. Cette expérience a conduit à modifier la prise en main du logiciel, identifier certains problèmes d’utilisabilité ainsi que d’autres difficultés liées aux mathématiques, et nous a conduit à modifier le logiciel. Cependant, cette première étude n’a pas permis de détecter certaines difficultés. En effet, l’observation d’une seule séance d’utilisation n’a pas permis d’observer l’évolution du comportement. De plus, les utilisateurs, recrutés parmi les connaissances des chercheuses et volontaires pour participer, n’étaient pas représentatifs de tous les utilisateurs. Selon les dires de leurs parents, ils étaient plutôt de bons élèves. Par ailleurs, la présence de l’observateur a pu modifier leur comportement et les inciter à s’impliquer davantage dans l’activité.

Après avoir modifié Ambre-add en fonction de cette première évaluation, nous avons testé l’impact du cycle Ambre sur l’apprentissage (utilité). Pour cela nous avons comparé l’utilisation de Ambre-add à l’utilisation de deux logiciels contrôle conçus pour l’expérience et nous avons mesuré l’effet de ces 3 logiciels sur l’apprentissage. Les 78 élèves de CE1 qui y ont participé ont utilisé l’un des systèmes sur une période de six semaines, à raison d’une demi-heure par semaine. Les élèves ont utilisé le logiciel dans la salle informatique de l’école pendant les heures de cours. Ce cadre ne permet pas de contrôler l’environnement, mais il offre l’avantage de pouvoir tester un nombre important d’élèves dans une situation familière pour eux, pendant plusieurs séances, en limitant la mortalité expérimentale (liée par exemple aux abandons). Pour prendre en compte la situation, nous avons noté le type de questions posées, les interventions des encadrants et les différents événements survenus durant la séance.

La conception et la passation se sont révélées assez coûteuses. Elles ont occasionné un travail important pour développer les maquettes contrôles, et ont nécessité la présence de deux personnes durant chaque séance (1 journée par semaine pendant 6 semaines) mais n’ont pas permis d’aboutir à des résultats concluants. Par ailleurs, nous avons été confrontées à des difficultés méthodologiques liées à la condition contrôle. Le nombre de problèmes résolus n’était pas le même avec les logiciels Ambre-add et « résolution simple » et, lorsque les élèves utilisaient ce dernier, les encadrants ont dû leur apporter des explications complémentaires. Pour concevoir les maquettes contrôle, nous avions enlevé une ou plusieurs étapes au logiciel Ambre-add. Nous avons ensuite complété la maquette « résolution simple » avec une étape supplémentaire afin de limiter le nombre de problèmes résolus dans cette condition. Nous avons choisi de proposer une activité proche de la reformulation (analyser des données dans un énoncé). Celle-ci consistait à lire un énoncé contenant des valeurs numériques et à identifier les informations pertinentes pour répondre à une question posée. Malheureusement, cette étape n’a pas suffi pour équilibrer le nombre de problèmes résolus avec Ambre-add et la maquette résolution simple. Il est donc difficile d’interpréter les résultats obtenus. Par ailleurs, le diagnostic proposé pour les deux logiciels contrôle est inspiré du diagnostic de Ambre-add. Il est donc moins adapté à ces logiciels. Néanmoins, construire un diagnostic spécialement adapté à ces logiciels aurait également pu perturber la comparaison.

Cette seconde expérience nous a conduit à penser que Ambre-add serait plus adapté aux élèves de CE2. Pour le vérifier, nous avons conduit une autre expérience consistant à observer une classe utiliser Ambre-add pendant plusieurs séances. Cette expérience nous a permis de déterminer l’utilisation effective de Ambre-add par des élèves de CE2 et d’identifier les difficultés persistantes, ceci dans un temps relativement court. Toutefois, la méthode utilisée, principalement basée sur l’observation, a certaines limites : elle ne permet pas de quantifier les comportements observés et peut être biaisée par les a priori de l’observateur. La validité de ces résultats pourrait être améliorée en utilisant par exemple une grille permettant de quantifier des comportements prédéterminés ou en faisant des enregistrements vidéo et en analysant les traces d’interaction.