2.5.1 Conception de la base de données

Pour réaliser cette base de données des noms propres, nous nous sommes basés sur la modélisation des noms (cf. § 2.3.3) qui présente beaucoup de traits communs avec cette nouvelle base de données dont notamment la partie relative aux modèles de déclinaison.

Nous avons tout d'abord défini les entrées du dictionnaire. Nous étions confrontés à deux problèmes de choix où il fallait trancher. Le premier problème est dû aux multiples transcriptions d'un même nom propre « Les noms propres n’ont, dit-on, ni orthographe ni prononciation ». Faut-il définir une seule entrée principale et la lier aux autres transcriptions ou utiliser plusieurs entrées différentes. Nous avons opté pour ce dernier choix parce que les différentes transcriptions peuvent se décliner différemment et le fait de lier deux transcriptions relatives au même nom propre n'apporte aucun apport au processus d'analyse. Le second problème concerne les noms propres composés. Faut-il avoir une entrée pour chaque élément du nom propre composé et les associer par une relation ou bien les considérer comme un tout constituant une seule entrée. Nous avons opté pour ce dernier choix puisque les composants ne constituent pas forcément des noms propres. Par exemple, « الدّين : aDDîN » de « علاء الدّين : c Lâ? ADDîN » ne constitue pas un nom propre.

Afin notamment de faciliter la recherche et la navigation dans le dictionnaire, nous avons ensuite essayé d'organiser les entrées du dictionnaire dans différentes catégories selon des critères sémantiques. Nous les avons ainsi divisés en trois principales divisons : les noms des lieux (أسماء الأماكن), les noms des personnes (أسماء الأشخاص) et les autres noms propres (أسماء أخرى), qui étaient à leur tour distribués sur d'autres subdivisons plus fines.

Dans cette première réalisation, la catégorie des "noms des lieux" regroupe les subdivisions pays = (بلدان), capitales = (عواصم), grandes villes = (مدن مشهورة), monuments historiques = (أماكن تاريخيّة), fleuves = (أنهار), montagnes = (جبال), lacs = (بحيرات), continents = (قارّات) et océans = (بحار). Celle des "noms des personnes" regroupe les noms courants = (أسماء علم متداولة), les surnoms = (ألقاب وكنى متداولة), les personnalités = (شخصيّات) et les établissements = (مؤسّسات). Enfin, la subdivision "autres noms propres" regroupe quant à elle les jours de semaine = (أيّام الأسبوع), les mois = (الشّهور), les nombres cardinaux = (الأعداد الأصليّة), les nombres ordinaux = (الأعداد الثرثيبيّة), les raccourcis = (مختصرات), les nations et populations = (شعوب وقبائل), les dynasties = (عروش) et les noms propres non caractérisés = (غير مبوّبة).

Nous avons enfin défini et structuré les entités de la base de données à partir des règles linguistiques y relatives. Nous avons constaté qu'un nombre important de noms propres composés partagent le même composant, comme par exemple les prénoms composés de (عبد : c BD) (=«adorateur») et de l'un des 99 attributs de dieu = (أسماء الله الحسنى). Afin d'éviter la redondance du même composant dans plusieurs entrées différentes, nous avons créé deux entités indépendantes : Une première entité contenant uniquement les indices des noms propres et une seconde entité contenant les composants qui sont reliés par une entité relation définie par la concaténation de leur clé (figure 2-12). Cette décomposition a l'avantage d'accélérer la saisie, puisqu'elle évite de ressaisir les propriétés des composants déjà saisis.

Nous avons, d'autre part, associé trois propriétés aux entrées du dictionnaires qu'elles soient simples ou composées : son origine (arabe / étrangère), son genre (masculin, féminin) et son nombre (singulier, duel, pluriel). Afin de pouvoir générer les formes fléchies à partir du (des) composant(s) du nom propre, nous avons aussi retenu les informations suivantes :

  • Les différents affixes acceptés par les composants : l'article (اَلْ : al), les suffixes du duel (َان : âNi), (َيْن : aYNi), les suffixes du pluriel (َات : âT), (ُون : ûN), (ِين : îN), le suffixe du féminin (َة : a&) et le suffixe de l'adjectif de relation (ِيّ : iYY).
  • Le noyau (base) de l'adjectif de relation lorsqu'il est différent de celui du nom propre.
  • Le modèle de déclinaison pour déterminer les suffixes du nom propre selon le mode (indéterminé, déterminé par annexion, déterminé par l'article) et le cas (nominatif, accusatif, génitif). Nous avons ajouté aux 11 modèles de déclinaison préalablement définis pour les noms, 8 nouveaux modèles pour tenir compte des spécificités des noms propres dont notamment l'absence du mode "déterminé par l'article".