Introduction

Dans le domaine des langues, nombreux sont les diplômes ou certificats délivrés après qu’un apprenant a atteint un certain niveau ou réussi à un examen précis ; certains d’entre eux n’ont de valeur que dans l’institution où ils ont été obtenu, d’autres sont reconnus à l’intérieur d’un pays et d’autres encore bénéficient d’une reconnaissance internationale. Dans ce dernier cas, dans le domaine du Français Langue Etrangère, on trouve notamment le DELF (Diplôme d’Etudes en Langue Française) et le DALF (Diplôme Approfondi de Langue Française), certifications élaborées par le Centre International d’Etudes Pédagogiques (CIEP), validées et même décernées par le Ministère de l’Education Nationale français. Depuis 1985, date de leur création, et dans le monde entier, de nombreux apprenants se présentent aux sessions de ces examens qui sont le gage de la reconnaissance à l’échelle mondiale d’un niveau de français déterminé précisément et qui, dans le cas du DALF, dispensent du test de langue à l’entrée des universités françaises.

Chacune de ces certifications cherche à évaluer une ou des compétences, dans le sens de production orale ou écrite et de compréhension orale ou écrite. Pour ce faire, on a établi des sujets et des critères visant à évaluer lesdites compétences, tout en tenant compte aussi de la qualité de la langue en termes de morphosyntaxe, lexique, structure des phrases, prosodie, etc., selon l’examen présenté et la compétence évaluée. Lors des sessions, les examinateurs doivent évaluer les productions et corriger les copies selon les critères correspondant à chaque unité du DELF ou du DALF et qui sont envoyés aux centres d’examen en même temps que les sujets, afin que le barème soit identique partout et que tous les candidats soient évalués sur les mêmes critères. Ce que l’on vient de décrire recouvre le déroulement (chrono)logique des épreuves d’examens, mais c’est aussi le point de départ de nos interrogations et réflexions.

Ce qui nous intéresse plus particulièrement ici, c’est l’évaluation des travaux et l’utilisation qui est faite des grilles de correction. Comment peut-on tout autour du monde, dans des contextes d’apprentissage et de culture profondément différents, évaluer de la même manière ? Bien sûr, les épreuves d’examens et les grilles de correction qui les accompagnent sont les mêmes pour tous. Mais cela veut-il dire que la manière de corriger est identique ? Il n’est pas question ici de remettre en cause les capacités de correction des examinateurs, mais plutôt les marges de liberté laissées par les grilles : la formulation de celles-ci est-elle précise au point de ne pouvoir être interprétée que d’une seule manière ? Est-ce à dire que pour chaque correcteur, il n’y a qu’une seule et unique lecture possible, limitant par là-même les différences d’interprétation et donc de notation ? D’autre part, y a-t-il à l’intérieur du critère d’évaluation en question (par exemple : « morphosyntaxe », « richesse lexicale », « degré d’élaboration des phrases », etc.) d’autres critères qui permettent de juger avec fiabilité et objectivité et de noter de manière identique ? Là est le problème : les grilles devraient permettre la fiabilité, l’objectivité et donc la limitation des différences de notation, tout en étant assez détaillées, lisibles et claires.

A partir d’un corpus de copies déjà corrigées de différentes unités du DELF et du DALF, fournies par le CIEP, nous nous sommes penchée à la fois sur les grilles d’évaluation et les marques de correction que portent les examens. Notre analyse a été guidée par plusieurs hypothèses : tout d’abord, les marques de correction laissées par les examinateurs sont-elles le reflet de la grille d’évaluation et des critères qu’elle contient ? Ou bien les correcteurs privilégient-ils – ou plutôt sanctionnent-ils – certains types d’erreurs en particulier ? Dans ce cas, comment interpréter les corrections effectuées ? D’autre part, les critères de correction sont-ils assez descriptifs pour permettre une évaluation fiable, rationnelle et la plus objective possible, et qui limite en même temps les écarts de notation et les mauvaises interprétations de la grille ? D’un autre côté, sur quoi les critères sont-ils en fait plus axés : l’évaluation de la qualité linguistique ou celle de la compétence de communication ? De là, nous arrivons à une dernière question : pour chaque compétence, les critères d’évaluation sont-ils en adéquation avec les descripteurs du Cadre Européen Commun de Référence pour les Langues (CECRL), aujourd’hui incontournable en ce qui concerne l’apprentissage, l’enseignement et l’évaluation des langues ?

Au vu du corpus fourni, nos objectifs étaient les suivants : premièrement, tenter d’établir ce sur quoi les correcteurs semblent insister lorsqu’ils évaluent un paquet de copies ; en fonction de cette analyse, nous avons essayé de voir s’ils respectent vraiment la grille fournie ou s’ils sanctionnent d’autres éléments aussi. Deuxièmement, en partant de l’annonce de la prochaine réforme du DELF et du DALF, fondée sur l’harmonisation avec les niveaux établis par le CECRL, nous souhaitions tenter de proposer des grilles d’évaluation qui pourraient satisfaire à plusieurs critères, tels que cette harmonisation sur le CECRL et la recherche d’une plus grande fiabilité, illustrée par la diminution des écarts de notation.

Ce travail ne pouvant être effectué ici sur l’ensemble des épreuves du DELF et du DALF, soit respectivement six unités réparties en deux niveaux d’un côté, et quatre unités de l’autre, il a fallu faire un choix. Les épreuves de production orale ont été exclues pour la simple raison qu’il fallait des enregistrements, ce dont nous ne disposions pas. Le corpus contenait des épreuves de compréhension orale, mais il ne nous semblait pas pertinent de les retenir, car dans de nombreux cas, leur évaluation ne pose pas de problème spécifique lié par exemple à la subjectivité du correcteur ou à son interprétation d’un document. Les questions sont en effet majoritairement fermées, ne laissant ainsi la place qu’à une réponse possible. Il faut parfois répondre par une phrase, mais la question est formulée de telle sorte que les informations demandées sont très précises et excluent les réponses subjectives. Restait l’écrit : la majorité des épreuves se composent d’un travail de production écrite suivi ou précédé d’un travail de compréhension écrite, ce dernier point nous paraissant moins intéressant au niveau des différences de notation possibles : les corrigés contiennent en effet les réponses acceptées et/ou attendues pour les questions de compréhension ; s’il y a des questions plus générales, pour lesquelles on demande par exemple l’opinion personnelle du candidat, une grille d’évaluation spéciale est fournie, contenant deux ou trois critères. Pour la production écrite, en revanche, l’examinateur, bien qu’aidé de sa grille de correction, pourrait être très souvent guidé ou distrait, consciemment ou inconsciemment, par sa subjectivité, qui lui fera par exemple préférer un style à un autre malgré une moins bonne qualité linguistique. Bien évidemment, nous ne pouvons pas, ni ne voulons ici établir les « préférences » des correcteurs, ni critiquer ces derniers. Nous souhaitions tout simplement essayer d’étudier la fiabilité des grilles de correction, et c’est avec les travaux conçus uniquement pour évaluer la production écrite que nous avons eu le plus de possibilités de nous y exercer.

Notre choix s’est porté sur deux épreuves du DALF, le compte-rendu (épreuve B1) et la synthèse (épreuve B3), représentant deux sessions d’examens. Nos justifications sont les suivantes :

Le travail qui suit est la conséquence de toutes les interrogations que nous avons soulevées plus haut. Afin d’aider le lecteur à mieux cerner les caractéristiques du DALF, nous allons dans un premier temps nous intéresser à cette certification et à la place qu’elle a dans le champ des évaluations en Français Langue Etrangère (FLE) ; nous progresserons du plus général vers le particulier, afin de pouvoir entrer plus facilement au cœur de nos interrogations dans la deuxième partie. Celle-ci laissera place à l’analyse de données concrètes, fournies par le corpus dont nous disposons. Nous travaillerons d’abord sur les grilles d’évaluation des examens concernés, puis nous passerons à l’analyse détaillée des marques de correction. Nous terminerons ce point en observant le cas de certaines pratiques attestées, à partir desquelles nous ouvrirons une perspective. C’est alors seulement que nous pourrons essayer de mettre à profit les analyses précédentes en cherchant à élaborer de nouvelles grilles d’évaluation pour le compte-rendu et la synthèse. Cette présentation devra s’appuyer sur un cadre théorique strictement défini, et chaque parti pris devra être justifié. Tout cela permettra de formuler des propositions pour de nouvelles grilles d’évaluation au DALF.