4.3.2 Un concordanceur pour l’EIAO de l’arabe

Un concordanceur doit être capable de parcourir une vaste base textuelle et de fournir toutes les phrases contenant le mot recherché. Le résultat est souvent affiché en format KWIC (Key Word In Context) ou, en français, MCC (Mot-Clef en Contexte), c'est à dire que le mot-clé est affiché au milieu de l'écran ligne par ligne et est entouré par son contexte gauche et droit. La régularité de cette disposition permet de mettre en évidence les caractéristiques du mot. En principe, un concordanceur doit pouvoir trier les contextes par ordre alphabétique ce qui permet d’étudier les collocations ou les schémas syntaxiques.

Pour retrouver les concordances, le programme de recherche (KWIC) parcourt le texte avec une ligne de longueur fixe et à chaque fois il compare le mot du milieu avec la forme graphique du mot recherché. Cette technique permet généralement de retrouver toutes les concordances de mots latins puisque ces derniers ne connaissent pas de variation morphologique importante. Par contre, pour la langue arabe cette technique ne donne pas des résultats satisfaisants.

A travers une série d’exemples de requêtes choisis⁴², nous allons essayer d’expliquer pourquoi les concordanceurs KWIC ne répondent pas aux besoins d’un environnement d’apprentissage de la langue arabe, malgré les nombreuses fonctionnalités qu’ils offrent.

Requête 1 : Nous avons lancé une première requête avec le mot graphique (قرأ) sur une partie du livre (الأيّام) de (طه حسين), en espérant obtenir les contextes de toutes les formes conjuguées du verbe (قَرَأَ - يَقْرَأُ) = (« lire »). Le concordanceur nous a retourné 19 résultats seulement d’où sont absentes des formes conjugués simples comme (يقرأ) (figure 4-4).
Requête 2 : Pour essayer de retrouver les concordances manquantes, nous avons employé deux jokers (*), un avant et un après le mot : (*قرأ*). Les jokers, qui sont très utilisés dans les environnements informatiques, permettent d’élargir la recherche à des chaînes de caractères non prévus explicitement par l’utilisateur. Il existe deux types de jokers : le caractère graphique (*) qui permet de remplacer un ou plusieurs caractères et le caractère graphique ( ?) qui remplace un seul caractère. Le résultat est nettement meilleur, puisque nous avons obtenu 87 résultats au lieu de 19 sur la même portion du livre (الأيّام) (figure 4-5), avec des formes comme « قرأت » ou « يقرأ ». Néanmoins, cette fonctionnalité ne permet pas de retrouver les formes conjuguées qui emploient d’autres graphies de la HAMZA (autres que la graphie « أ »).

Requête 3 : Pour pallier ces inconvénients, on doit utiliser une requête complexe intégrant toutes les formes graphiques des formes conjuguées du verbe (قَرَأَ - يَقْرَأُ). On pourra recourir aux opérateurs booléens (OR, AND, NOT), pour construire de telles requêtes. Ainsi, on doit lancer la requête suivante : (*قرأ*) OR (*قرؤ*) OR (*قرئ*) OR (*قرآ*). La requête (*قرؤ*) à elle seule permet d’avoir dix nouveaux résultats (figure 4-6).

Evidement, nous ne pouvons pas produire automatiquement ce type de requête pour proposer par exemple des activités d’apprentissage des formes conjuguées du verbe (قَرَأَ - يَقْرَأُ).

Abstraction faite aux besoins de l’environnement d’apprentissage, l'utilisation de ces options sur des textes arabes ne résout pas complètement le problème du taux de silence⁴³ qui reste malgré tout présent. Ceci est dû pour deux raisons :

La première raison est d'ordre morphologique. Certaines formes dérivées utilisent des noyaux différents de leur lemme (i.e. suppression ou insertion de consonnes dans le mot). Les formes conjuguées en arabe peuvent en effet être obtenues à partir de plusieurs bases de conjugaison⁴⁴. Par exemple, le verbe « لَوَى - يَلْوِي » = («pivoter »), possède trois bases de conjugaison différentes «لَو », «لَوَي » et «لَوَى» pour la conjugaison de l’accompli. Si par exemple, nous lançons une requête avec la première base dans le mot à rechercher suivie d'un joker, nous obtenons toutes les formes conjuguées mais avec un taux de bruit très élevé (le résultat inclura les phrases contenant par exemple les prépositions «لَوْ », «لَوْلا », etc.). Par contre, si nous mettons la deuxième ou la troisième base comme objet de requête, nous exclurons les résultats correspondants aux formes conjuguées obtenues avec les deux autres bases. On retrouve ce même problème avec les noms. Les pluriels brisés présentent généralement des noyaux différents de leur singulier. Par exemple, les singuliers qui sont construits avec le schème (فَعَلٌ) comme (فَرَحٌ) = (« mariage ») possèdent des pluriels avec un "alif" supplémentaire (أَفْرَاحٌ). Il existe même des pluriels dont les consonnes sont complètement différentes de celles de leur singulier comme (نِسَاءٌ) « femmes » qui a pour singulier (إِمْرَأَةٌ).
La deuxième raison du taux de silence pourrait être la nature même du corpus textuel utilisé. Dans le cas où le corpus serait formé par des textes partiellement voyellés (c’est généralement le cas pour les textes de l’environnement d’apprentissage), les taux de silence et de bruit seront très importants. Etant donné que les concordanceurs (KWIC) ne cherchent que les formes dont la voyellation est exactement la même que celle du mot-clé, ils vont passer sous silence toutes les autres formes. L’utilisation des jokers à la place des voyelles engendrera par contre un taux de bruit très élevé puisque les voyelles, ayant leur propre code (ASCII ou UNICODE), sont considérées comme des consonnes par les concordanceurs.

Pour toutes ces considérations, un concordanceur fonctionnant sur des textes arabes doit absolument assurer une fonction d'analyse qui ramène le mot recherché à son lemme (cf. § 4.3.3). Il doit d’autre part, assurer quelques fonctionnalités supplémentaires, pour répondre aux attentes des environnements d'apprentissage :

La première fonctionnalité concerne le contexte d'apparition du mot recherché (le format d'affichage KWIC n’affiche généralement pas la totalité de la phrase). La restriction de l’affichage du contexte du mot à la seule phrase l’incluant est nécessaire pour les apprenants débutants surtout quand il s'agit d'un texte sans ponctuation.
La seconde fonctionnalité concerne la génération automatique d'activités grammaticales sur un aspect morphologique ou syntaxique particulier (cf. § 4.3.2). Le concordanceur doit être en mesure de retrouver les phrases contenant des mots vérifiant les propriétés morpho-syntaxiques de ces activités.

Notes

42.

Pour effectuer ces requêtes, nous avons utilisé « MonoConc Pro » - Version 1.0 (Build 208) – Michael Barlow – Athelstan 1996 – 1999 (info@athel.com)

43.

On peut définir le taux de silence comme la proportion des mots dérivés du mot recherché qui n’ont pas été trouvés par le concordanceur.

44.

Pour un seul aspect/mode de conjugaison, un certain nombre de verbes peuvent avoir jusqu’à quatre bases de conjugaison différentes (cf. § 2.3.2)