Descriptif du projet

L'objectif général du projet DIINAR-MBC ( DI ctionnaire IN formatisé AR abe- M ultilingue et B asé sur C orpus) était de munir la langue arabe d'un ensemble d'outils et de ressources de traitement de la langue destinés aux linguistes, lexicographes et les professionnels des technologies de la langue.

Le projet DIINAR-MBC a délivré deux boîtes à outils (Voir figure ci-dessous : DIINAR-MBC Tools & Resources Diagram) :

  1. La première boîte à outils renferme :
    1. Un corpus textuel brut représentatif de l'arabe moderne standard de 10 millions de mots (ARCOLEX : Arabic Raw Corpora for Lexical purposes) collectés à partir de textes représentatifs de la langue arabe par les différents partenaires participants au projet et encodés selon la norme de la TEI (Text Encoding Initiative).
    2. Une petite partie de ce corpus (200.000 mots) a été étiquetée manuellement et automatiquement. L’étiquetage manuel ayant servi à évaluer les résultats obtenus automatiquement à l'aide de l’analyseur morpho-syntaxique (LARUSA : a Lexical-purpose Arabic Unvowelled Sentence Analyser).
    3. Une sélection de dix mille lemmes les plus représentatifs de l’arabe, qui a permis de réaliser un prototype d’une base de données lexicale multilingue arabe-français et arabe-anglais (PROLEMAA : Prototype de Lexique Multilingue à partir de l’Arabe).
  1. Le deuxième paquet se compose d’un ensemble d’outils qui permettent la réalisation du lexique multilingue basé sur l’Arabe. Il comprend notamment :
  2. Des interfaces utilisateur ergonomiques pour la saisie du lexique PROLEMAA. Elles permettent de saisir tous les spécificateurs morpho-syntaxiques et sémantiques qui sont associés aux entrées lexicales.
  3. Un analyseur syntaxique de textes arabes non voyéllés pour le traitement automatique du corpus.