4.3.2 Un concordanceur pour l’EIAO de l’arabe

Un concordanceur doit être capable de parcourir une vaste base textuelle et de fournir toutes les phrases contenant le mot recherché. Le résultat est souvent affiché en format KWIC (Key Word In Context) ou, en français, MCC (Mot-Clef en Contexte), c'est à dire que le mot-clé est affiché au milieu de l'écran ligne par ligne et est entouré par son contexte gauche et droit. La régularité de cette disposition permet de mettre en évidence les caractéristiques du mot. En principe, un concordanceur doit pouvoir trier les contextes par ordre alphabétique ce qui permet d’étudier les collocations ou les schémas syntaxiques.

Pour retrouver les concordances, le programme de recherche (KWIC) parcourt le texte avec une ligne de longueur fixe et à chaque fois il compare le mot du milieu avec la forme graphique du mot recherché. Cette technique permet généralement de retrouver toutes les concordances de mots latins puisque ces derniers ne connaissent pas de variation morphologique importante. Par contre, pour la langue arabe cette technique ne donne pas des résultats satisfaisants.

A travers une série d’exemples de requêtes choisis42, nous allons essayer d’expliquer pourquoi les concordanceurs KWIC ne répondent pas aux besoins d’un environnement d’apprentissage de la langue arabe, malgré les nombreuses fonctionnalités qu’ils offrent.

Evidement, nous ne pouvons pas produire automatiquement ce type de requête pour proposer par exemple des activités d’apprentissage des formes conjuguées du verbe (قَرَأَ - يَقْرَأُ).

Abstraction faite aux besoins de l’environnement d’apprentissage, l'utilisation de ces options sur des textes arabes ne résout pas complètement le problème du taux de silence43 qui reste malgré tout présent. Ceci est dû pour deux raisons :

Pour toutes ces considérations, un concordanceur fonctionnant sur des textes arabes doit absolument assurer une fonction d'analyse qui ramène le mot recherché à son lemme (cf. § 4.3.3). Il doit d’autre part, assurer quelques fonctionnalités supplémentaires, pour répondre aux attentes des environnements d'apprentissage :

Notes
42.

Pour effectuer ces requêtes, nous avons utilisé « MonoConc  Pro » - Version 1.0 (Build 208) – Michael Barlow – Athelstan 1996 – 1999 (info@athel.com)

43.

On peut définir le taux de silence comme la proportion des mots dérivés du mot recherché qui n’ont pas été trouvés par le concordanceur.

44.

Pour un seul aspect/mode de conjugaison, un certain nombre de verbes peuvent avoir jusqu’à quatre bases de conjugaison différentes (cf. § 2.3.2)