4.4. La dispersion et l’opposition de durée vocaliques : des indices acoustiques robustes pour l’identification automatique des parlers arabes par zone

La plupart des systèmes d’IAL se basent sur les formes standardisées des langues. Or, un grand nombre de langues naturelles se déclinent sous des formes dialectales plus ou moins « ressemblantes ». Les parlers arabes, par exemple, présentent — comme nous l’avons vu dans les chapitres précédents — parfois si peu de caractéristiques communes qu’il est souvent difficile d’établir des rapprochements d’une forme linguistique à l’autre. Ceci est d’autant plus vrai que l’on se situe sur des points du domaine géographiquement éloignés. De plus, nous avons vu que l’influence entre arabe standard (i.e. langue d’enseignement apprise) et arabe dialectal (i.e. langue maternelle acquise) s’effectue dans le sens dialecte → langue standard ; ce constat nous à autorisé à penser qu’élargir le champ des investigations en IAL aux variantes dialectales non-standards constitue une entreprise primordiale tant du point de vue applicatif que du point de vue méthodologique. En effet, la connaissance des caractéristiques propres aux dialectes arabes peut, dans une certaine mesure, faciliter la compréhension de la variabilité rencontrée au niveau des réalisations en arabe standard.

Ici, notre objectif est d’évaluer la robustesse de la distribution et de l’opposition de durée vocaliques pour une tâche d’identification automatique des dialectes arabes par zones géographiques principales (i.e. Maghreb vs Moyen-Orient).

Compte tenu du fait que le modèle de Pellegrino est conçu pour permettre la détection vocalique sans adaptation au traitement d’une langue inconnue, il nous a semblé pertinent de l’utiliser pour cette tâche. Rappelons que l’approche utilisée repose sur l’identification globale et spécifique d’une structure (i.e. organisation des segments vocaliques) dans l’espace acoustique, et non sur l’identification individuelle des caractéristiques acoustiques du signal.

La caractérisation des systèmes vocaliques des différents parlers arabes effectuée dans le chapitre 3 de ce travail, nous a permis de montrer que les dialectes occidentaux (i.e. maghrébins) attestent — au niveau phonétique — une dispersion vocalique plus centralisée que celle des parlers orientaux, lesquels privilégient une répartition plus périphérique couvrant, de fait, un espace acoustique plus large. Il est par ailleurs important de rappeler que cette différence concerne aussi bien la distribution des voyelles brèves que celle des voyelles longues.

Nous avons également vu que la réalisation de l’opposition de durée vocalique présentait également des différences significatives dans l’une et l’autre des deux zones dialectales concernées. Les parlers maghrébins attestent, en effet, un rapport Vl/Vb moyen significativement inférieur à celui des parlers orientaux : R = 1.9 pour le Maghreb et R = 2.3 pour le Moyen-Orient.

Outre la définition de deux organisations vocaliques bien différenciées pour ces deux aires dialectales tant du point de vue qualitatif que quantitatif, notre étude confirme l’idée que proposer, pour les dialectes arabes, un système vocalique identique à celui généralement postulé pour l’arabe standard n’est, en aucun cas, compatible avec les fait phonétiques observables en arabe dialectal et qui plus est, en parole spontanée. Ceci constitue d’ailleurs un argument supplémentaire quant au développement de modèles de reconnaissance basés sur le décodage acoustico-phonétique de la parole continue et prenant en compte les variations observées au niveau dialectal⁷⁰.

Notes

70.

Pour un argumentaire détaillé de l’influence du substrat dialectal sur les productions en arabe standard, voir Abu-Haidar (1991).