INTRODUCTION GÉNÉRALE

Cette thèse s’inscrit dans le cadre de l’Identification Automatique des Langues, un domaine relativement récent à la frontière de la linguistique et du traitement automatique de la parole. Dans ce travail, nous nous sommes plus particulièrement intéressés à la détermination d’indices acoustiques pertinents et robustes pour la discrimination automatique des dialectes arabes.

Rappelons tout d’abord que l’étude des dialectes, et plus particulièrement des parlers arabes, est une discipline relativement récente. En effet, les relations entretenues par la langue standard et l’Islam ont, pendant de longues années, contribué à reléguer le dialecte au rang de « sous-langue » dont l’influence sur le verbe sacré se devait d’être combattue. C’est cependant dans ce cadre — certes plus théologique que purement linguistique — qu’est née la dialectologie arabe.

Mais une fois la protection de la langue classique assurée de par la publication de nombreux traités et autres grammaires méthodiques, l’étude des dialectes est tombée en totale désuétude. Cette situation a perduré, dans l’ensemble du monde arabe, dix siècles durant. Il a fallu attendre le 19e siècle et la présence — sur le terrain — de dialectologues d’origine européenne pour observer un regain d’intérêt pour ces langues considérées alors comme « exotiques ».

Depuis cette période, l’étude des variétés dialectales — entre autres arabes — a conduit à la publication d’innombrables monographies. Or, il n’existait pas, avant notre travail, d’ouvrage présentant l’état des connaissances actuelles en dialectologie arabe, nous espérons que ce travail de thèse comblera en partie ce manque.

Il nous est ainsi paru utile de présenter, dans un premier chapitre, la distribution géographique et la classification de ces parlers, tout en exposant une synthèse, aussi exhaustive que possible, des études linguistiques arabes touchant plus particulièrement aux domaines de la phonétique et de la phonologie. Dans cette partie, nous avons tenu à harmoniser la transcription des données recueillies dans la littérature. Celle-ci présente en effet l’inconvénient de connaître autant d’auteurs que de systèmes de transcriptions, ce qui rend la lecture si ce n’est impossible (dans les cas où les correspondances ne sont pas clairement définies en début d’ouvrage) tout au moins difficile. C’est pourquoi, nous avons fait le choix d’une transcription homogène fondée sur l’utilisation de l’Alphabet Phonétique International tel qu’il est établi — dans sa dernière version modifiée en 1996 — par l’Association International de Phonétique. Afin de rendre lisible pour le plus grand nombre les symboles conventionnels utilisés ici, une table des correspondances est proposée au début de ce travail. Nous espérons ainsi avoir contribué à la vitalité de la dialectologie arabe.

Après avoir sensibilisé le lecteur à la variabilité linguistique propre à ce domaine, nous définissons — dans le second chapitre — les notions d’indices acoustiques robustes et discriminants. Nous expliquons dans un premier temps que les langues du monde ainsi que leurs formes dialectales disposent d’un éventail de propriétés acoustiques qui permettent de les distinguer les unes des autres. Dans le cadre d’une tâche d’Identification Automatique des Langues, la connaissance a priori de ces caractéristiques phonético-phonologiques peut s’avérer particulièrement pertinente pour l’élaboration de systèmes d’identification performants. C’est ainsi que, munis de données en arabe dialectal spontané, nous avons envisagé d’utiliser les capacités du système perceptuel humain à reconnaître les langues pour déterminer expérimentalement les critères linguistiques qui permettent à des sujets arabophones naïfs d’identifier l’origine dialectale d’un locuteur inconnu.

Les résultats obtenus à l’issue de ces expériences perceptuelles nous ont conduits à avancer l’hypothèse selon laquelle la variabilité dialectale arabe peut être envisagée de manière globale selon une dichotomie correspondant à une réalité géographique. Dès lors, notre intérêt s’est tourné vers la détermination d’indices acoustiques pertinents pour la discrimination des parlers par zones géographiques principales (i.e. maghrébins vs orientaux). Après avoir étudié les caractéristiques de chacun des critères évoqués par nos sujets pour chacun des parlers, nous avons envisagé d’évaluer le pouvoir discriminant et la robustesse de ceux qui apparaissent de manière exclusive sur l’une ou l’autre des deux zones dialectales concernées. Parmi cet ensemble, deux indices nous ont paru particulièrement discriminants et potentiellement robustes. Il s’agit d’une part de la dispersion des segments vocaliques dans l’espace acoustique, et d’autre part, de la réalisation, — en parole spontanée — de l’opposition de durée vocalique.

La caractérisation acoustique des systèmes vocaliques de six dialectes arabes fait ainsi l’objet du troisième chapitre. La zone occidentale est ici représentée par des échantillons de parole en arabe marocain, algérien et tunisien et la zone orientale, par des énoncés en arabe syrien, libanais et jordanien. L’analyse acoustique que nous avons effectuée montre d’une part, que la distribution dans l’espace acoustique des segments vocaliques brefs et longs permet à elle seule d’établir une dichotomie entre parlers orientaux privilégiant les positions périphériques et parlers maghrébins préférant les positions centrales. D’autre part, l’étude de la durée vocalique des différents parlers nous apprend que le paramètre de quantité constitue également un indice de discrimination dialectale robuste, les parlers maghrébins se caractérisant par un rapport de durée voyelle longue/voyellebrève significativement inférieur à celui mis en oeuvre dans les parlers du Moyen-Orient. Cet aspect a, par ailleurs, été abordé à travers l’analyse des schémas rythmiques dont l’étude, à partir de parole synthétique, a montré qu’il pouvait a priori être considéré comme un critère efficace pour la discrimination des parlers arabes par zones géographiques.

Enfin, le quatrième et dernier chapitre de ce travail est consacré au champ de l’identification automatique des langues. Il débute sur une brève présentation des enjeux socio-économiques et scientifiques liés à ce domaine de recherche et se poursuit avec la présentation du modèle utilisé dans le cadre de nos expériences préliminaires en identification automatique des parlers arabes. Nous commençons par présenter la notion de Modélisation Phonétique Différenciée sur laquelle repose le système de reconnaissance développé par Pellegrino (1998) et qui fournit, nous semble-t-il, un cadre théorique prometteur pour de nombreuses recherches mêlant linguistique et informatique. Puisque les expériences que nous avons mis en place ont pour objectif premier de valider la robustesse des indices discriminants dégagés et analysés sur le plan acoustique dans le chapitre 3, nous présentons plus en détail l’approche de modélisation différenciée des systèmes vocaliques. Au cours des parties suivantes, nous présenterons brièvement les algorithmes utilisés pour extraire automatiquement les voyelles présentes dans le signal, la méthode employée pour leur paramétrisation ainsi que les statistiques employées pour modéliser les systèmes vocaliques des langues. Enfin, nous présentons les expériences d’identification automatique par discrimination automatique des systèmes vocaliques que nous avons réalisées à l’aide du modèle précédemment décrit et sur la base de nos corpus en arabe dialectal maghrébin et oriental.