Introduction générale

‘« LECTEUR, pour vivre bien content, lisez pour apprendre à bien vivre, et ne perdez point votre temps, à chercher les fautes d’un livre ;
Il n’en est point de si parfait, où vous ne puissez reprendre ;
Il n’en est point de si mal fait, en qui vous ne puissiez apprendre »
Jean de LA RIVIERE (1721)’

Cette thèse concerne l’élaboration d’un environnement informatique d’aide à l’apprentissage lexical et grammatical de l’arabe1 langue seconde ou étrangère « AL-Mu c aLLiM ». Notre travail porte essentiellement sur trois axes :

Cette thèse est issue des travaux effectués sur le traitement automatique de la langue arabe au sein de notre groupe de recherche SAMIA «  S ynthèse et A nalyse M orpho-syntaxiques I nformatisées de l' A rabe en vue d’une application en enseignement assisté par ordinateur » (SAMIA, 1984) (Lelubre, 1985) (Dichy, 1987) (Abu Al-Chay, 1988) (Dichy & Hassoun, 1989) (Dichy, 1993) (Lelubre, 1993), sous la responsabilité de M. Hassoun (École Nationale Supérieure des Sciences de l’Information et des Bibliothèques : ENSSIB) pour les aspects informatiques et de J. Dichy (Université Lyon II) pour les aspects linguistiques.

A partir de 1993, l’équipe SAMIA a signé une convention de partenariat avec l’Institut Régional des Sciences de l’Informatique et des Télécommunications de Tunis (IRSIT- S. Ghazeli et A. Braham - Voir Annexe 2). Cette collaboration a abouti à la réalisation de la base de données lexicale de l’arabe DIINAR.1 « DIctionnaire INformatique de l’ARabe » (Hassoun, 1987) (Dichy, 1990) (Gader, 1996) (Dichy, 1997) (Ghenima, 1998) (Braham & Ghazeli, 1998).

De notre côté, nous avons débuté notre travail de recherches, en réalisant un prototype d’une base de données des formes verbales et déverbales de l’arabe en vue d'une application en EAO, dans le cadre de notre mémoire de maîtrise (Zaafrani & Ouersighni, 1993). Nous avons, par la suite, exploité un sous-lexique généré à partir de cette base de données, pour concevoir un premier environnement d’apprentissage dans le cadre de notre mémoire de DEA (Zaafrani, 1994).

Après la soutenance de ce mémoire, nous avons entamé cette thèse par une étude exploratoire du domaine de l'Apprentissage des Langues Assisté par Ordinateur (ALAO). Nous avons notamment constaté que l’individualisation de l'apprentissage (l’espace et le temps de l'apprentissage au choix de l’apprenant, un rythme de progression adapté, une participation intensifiée de l’apprenant, une évaluation personnalisée et en temps réel) reste le rôle le plus assigné à l’ordinateur dans les environnements de l'ALAO. Cette individualisation passe obligatoirement par la mise à la disposition des apprenants de ressources linguistiques informatisées propres à leur fournir les matériaux d’apprentissage et les outils d’aide et par l'articulation de ces moyens autour d’un programme pédagogique pertinent.

Nos premiers travaux ont relevé par conséquent de la construction matérielle de cette énorme masse d’informations linguistiques pour la langue arabe. Nous avons pris en charge la maintenance de la base de données lexicale (DIINAR.1) et la réalisation d'une série d'applications de Traitement Automatique de la Langue arabe. Notre participation aux travaux de construction et d’amélioration du dictionnaire DIINAR.1 recouvre trois phases d’activités distinctes :

La réalisation de ces ressources s’est effectuée en harmonie avec le développement d’applications de TAL de l’arabe. Nous avons d'abord construit un générateur automatique qui permet une production paramétrée du lexique et surtout un analyseur morpho-syntaxique fonctionnant à partir du lexique généré. Nous avons ensuite développé un certain nombre d'applications qui se basent sur les résultats retournés par l'analyseur :

La partie centrale de notre travail a été de concevoir un environnement adapté à un apprentissage autonome du lexique et de la grammaire arabe pour des apprenants étrangers de niveaux différents. L’orientation de l’apprentissage vers le lexique s’appuie sur les récents travaux en psycholinguistique, qui ont montré qu'une bonne connaissance du lexique est fondamentale pour la réelle maîtrise d'une langue et permet d’améliorer les différentes compétences de l’apprenant : morphologiques, syntaxiques et sémantiques.

Les théories psycholinguistiques sur le lexique mental, ont indiqué aussi que la maîtrise lexicale passe par la structuration et la réflexion sur le vocabulaire et l’entraînement et l’exécution d’activités lexicales. Dès lors, nous avons conçu un environnement d’apprentissage qui fonctionne autour d’un schéma d’apprentissage en trois volets : exposition / compréhension de textes, rétention du lexique et maîtrise de la grammaire.

Pour traiter le volet de l’exposition / compréhension, nous avons circonscrit notre cadre d’étude sur quelques textes qui pourront être par la suite enrichis. En effet, la couverture de la langue entière impose la constitution d'un corpus de textes de très grosse taille ainsi qu’un dictionnaire couvrant les sens de tous les mots de ce corpus. Nous nous sommes ainsi contentés de quelques textes que nous avons étiquetés par des informations d'ordre morpho-syntaxiques et ajouter les différents sens des mots manquants dans le dictionnaire et leurs correspondants dans les langues cibles des apprenants.

Comme nous le montrerons dans cette thèse, un corpus textuel bien étiqueté permet de résoudre les problèmes d’accès lexical et de compréhension de textes. Notre travail a consisté dans ce volet, à faciliter le passage de l’apprenant du texte au dictionnaire et vice-versa et à profiter des possibilités de l’informatique pour lui permettre une navigation mieux organisée à l’intérieur du dictionnaire.

Pour ce qui est du deuxième volet de notre environnement qu'est la mémorisation du lexique, nous avons conçu une interface qui offre la possibilité à l’apprenant d’organiser son vocabulaire dans un dictionnaire personnel. Il est en effet admis que la quantité du travail sur le lexique facilite sa rétention. Le fait que l'apprenant structure lui-même son propre vocabulaire implique une organisation plus profonde de celui-ci. L’effort mental ainsi généré est bénéfique pour l’incorporation de nouvelles connaissances au sein des anciennes et favorise de ce fait la rétention du vocabulaire. En plus, nous nous appuyons sur le dictionnaire personnel de l’apprenant pour personnaliser les activités lexicales et grammaticales.

Le troisième volet de notre schéma concerne la maîtrise des règles grammaticales. Nous avons construit un module qui permet à l'enseignant d'organiser les leçons grammaticales et de définir des activités génériques. Pour cela, nous avons défini quelques maquettes d'activités adaptées au média informatique et aux ressources de notre environnement. Ces activités sont générées automatiquement à partir d’un modèle de l'apprenant qui permet de synthétiser toutes les interactions apprenant-environnement et de suivre l’évolution de l’apprenant.

Ce travail est composé de neuf chapitres au cours desquels nous décrivons progressivement l’environnement d’apprentissage réalisé. Après un premier chapitre retraçant l'historique du domaine de l'ALAO, nous présentons les différentes ressources de l'environnement.

Le deuxième chapitre détaille la conception et la réalisation informatique de la base de données lexicale DIINAR.1, dont les nouvelles parties ajoutées pour gérer les mots outils et les noms propres. Dans ce chapitre, nous décrivons aussi le travail de maintenance effectué sur cette base de données et qui a permis d'améliorer les performances des différentes applications de TAL attachées.

Le troisième chapitre présente les processus d'analyse des mots graphiques et de génération automatique du lexique DIINAR.

Le quatrième chapitre décrit le fonctionnement des différentes applications développées à partir de l'analyseur du mot graphique. Ces applications ont servi notamment à définir le dictionnaire PROLEMAA et à étiqueter les textes utilisés dans l'environnement d'apprentissage.

Après ces quatre premiers chapitres, consacrés à la définition des ressources et des outils du système, nous exposons dans le cinquième chapitre les principes linguistiques et les pratiques pédagogiques retenues qui nous ont guidé pour l'élaboration des différentes composantes de l’environnement d'apprentissage.

Le sixième chapitre décrit la conception et la réalisation du dictionnaire électronique pour apprenant de l’arabe langue étrangère. Nous montrons notamment en quoi ce dernier est différent du dictionnaire classique sur papier et comment il permet de résoudre le problème d'accès lexical.

Le septième chapitre traite de l’implémentation des activités lexicales et grammaticales. Nous expliquons d'abord les principes de conception d'une activité informatisée et nous décrivons ensuite le processus de génération automatique de ces activités à partir des ressources du système (base de données lexicale, corpus de textes étiquetés, dictionnaire général, modèle de l'apprenant, dictionnaire personnel).

Le huitième chapitre décrit le modèle de l’apprenant. Nous déterminons à la fois les informations que doit contenir le modèle et le diagnostiqueur qui est l'ensemble des processus qui l’élaborent et le mettent à jour.

Enfin, le neuvième et dernier chapitre récapitule l’architecture de l'environnement « AL-Mu c aLLiM » et décrit les modules qui n'ont pas été étudiés dans les chapitres précédents : le module de recherche et du choix du texte, le module de compréhension d'un texte, le module de gestion du dictionnaire personnel de l’apprenant et le module de l’enseignant.

Notes
1.

Il s’agit de l’arabe littéraire, avec insistance sur la langue moderne (à l’exclusion des dialectes).

2.

Le lexique choisi correspond aux lemmes les plus fréquents du corpus textuel sélectionné dans le cadre du