4.5.2. Expériences d’identification automatique des parlers arabes par modélisation acoustique de leurs systèmes vocaliques

Le modèle utilisé est, comme nous l’avons rappelé, basé sur la modélisation acoustique des systèmes vocaliques, et permet d’obtenir des modèles d’apprentissage à partir de données non-étiquetées. Cette pratique présente, entre autres, l’avantage de ne pas être influencée par les connaissances phonologiques, qui dans le cadre de l’arabe, apparaissent souvent comme biaisées compte tenu des phénomènes d’interférence et d’hypercorrection avec la variété haute de la langue (i.e. arabe classique et/ou moderne standard) et/ou de l’influence du filtre phonologique propre au transcripteur (dans notre cas, le dialecte algérien).

En détectant sur le signal les sons possédant une structure formantique vocalique, le système est en mesure d’établir un certain nombre de classes vocaliques qu’il attribue — dans une phase d’apprentissage — à des modèles de langue (i.e. modèle maghrébin vs modèle moyen-oriental). Les décisions prises lors des tests de reconnaissance à partir d’échantillons de parole non-connus sont fonction de la vraisemblance, c’est-à-dire de la distance statistique existant entre les modèles d’apprentissage et l’énoncé à identifier. L’objectif de l’expérience est de confirmer ou d’infirmer la robustesse des indices de dispersion et d’opposition de durée vocaliques pour la discrimination automatique des parlers arabes par zones géographiques.