CONCLUSION GÉNÉRALE ET PERSPECTIVES

Notre travail de thèse a pour objectif principal la recherche d’indices acoustiques robustes en vue de l’identification automatique des parlers arabes par zones géographiques principales. Dans cette problématique notre dessein était d’aborder la description des dialectes arabes de manière globale en dégageant les propriétés propres aux parlers maghrébins d’une part et orientaux d’autre part. De cette approche originale est née la volonté d’intégrer les recherches en dialectologie arabe au champ nouveau et prometteur de l’identification automatique des langues.

Le premier chapitre offre un éclairage sur la diversité des formes dialectales arabes et propose une synthèse de leurs traits distinctifs au niveau phonético-phonologique. Cette introduction au domaine nous a mené à évaluer la pertinence des indices de discrimination dialectale traditionnellement évoqués (i.e. traitement des fricatives interdentales et réalisation de la plosive uvulaire sourde) tant sur le plan de l’évolution des langues que dans le cadre de l’identification automatique des langues.

Après avoir écarté pour notre propos l’utilisation de ces critères — définis comme peu fiables dans le cadre de la discrimination des parlers arabes par zones du fait de leur distribution hétérogène sur l’ensemble du domaine et de leurs réalisations fluctuantes dépendant de paramètres sociolinguistiques divers — nous avons choisi de déterminer de manière expérimentale d’autres indices d’identification dialectale. Pour ce faire, nous nous sommes appuyés sur la capacité du système auditif humain à reconnaître la parole accentuée et à identifier certains marqueurs linguistiques comme représentatifs d’une origine dialectale spécifique.

Sur la base de différentes expériences perceptuelles menées avec la collaboration de locuteurs/auditeurs originaires de différentes régions du monde arabophone, nous avons dégagé un éventail d’indices acoustiques discriminants potentiellement pertinents pour une tâche d’identification automatique. Parmi cet ensemble de traits, trois sont apparus comme étant a priori adéquats du fait de leur réalisation exclusive sur l’une ou l’autre des deux zones linguistiques étudiées (i.e. Maghreb vs Moyen-Orient).

Il s’agit plus précisément de la distribution des segments vocaliques dans l’espace acoustique et de la réalisation de l’opposition de durée phonologique telle qu’elle s’établit en parole spontanée. A ces critères s’ajoute l’existence de schémas rythmiques distincts associés à l’une et l’autre des deux zones dialectales pré-citées. Bien que perceptuellement efficace pour la distinction entre parlers du Maghreb et parlers du Moyen-Orient, nous n’avons pas cherché, dans le cadre de ce travail, à pousser plus loin la description de cet indice. En effet, l’absence de systèmes automatiques capables de modéliser les motifs rythmiques des langues ne nous a pas permis d’évaluer le poids de cet indice lors d’une tâche de reconnaissance automatique. Il s’agit d’ailleurs d’un enjeu majeur des travaux d’IAL pour les décennies à venir. Cet état de fait nous conduit à envisager les perspectives décrites ci-dessous.

Les différentes analyses acoustiques et statistiques que nous avons présentées au cours du troisième chapitre nous ont permis de caractériser finement la distribution des segments vocaliques dans l’espace acoustique des parlers arabes et d’établir une distinction pertinente entre les parlers arabes occidentaux privilégiant la génération de voyelles centrales et les parlers orientaux préférant les positions périphériques. Les différences observées à cet égard s’avèrent être significatives tant pour les voyelles brèves qu’au niveau du vocalisme long. Cette tendance, particulièrement sensible en parole continue, est à mettre en parallèle avec la remarque de Ph. Marçais (1977) selon laquelle « les parlers maghrébins se caractérisent par la ruine considérable de leur matériel vocalique ». Nous avons montré, en effet, que les contrastes qualitatifs tendent à s’amenuiser d’Est en Ouest, les dialectes occidentaux présentant une proportion de timbres neutres sensiblement plus importante que leurs pendants orientaux. Par ailleurs, forts des relations entretenues par les caractéristiques qualitatives des segments vocaliques et leur durée intrinsèque, nous avons pensé que le phénomène de centralisation vocalique observé dans les parlers du Maghreb pouvait être lié aux propriétés quantitatives des voyelles concernées conformément au principe défini par Delattre (1968) selon lequel « c’est la durée qui influence le timbre et non l’inverse ».

Nous avons ainsi tourné notre attention vers la caractérisation des systèmes vocaliques du point de vue de la durée des segments. Ici, notre objectif était de déterminer dans quel rapport s’effectue l’opposition de durée vocalique dans une langue où ce contraste possède un statut phonologique. L’originalité de notre approche réside en l’utilisation de corpus de parole continue qui, bien qu’elle ne prenne pas explicitement en compte les différents paramètres de variations de durées co-intrinsèques (i.e. débit de parole, nature du contexte consonantique adjacent, nombre de syllabe dans le mot, nombre de mots dans l’énoncé, etc.) constitue — à notre avis — la seule méthode d’investigation capable de refléter une image moins déformée de l’usage quotidien qu’ont les arabophones de leur langue quotidienne.

Les analyses effectuées révèlent une fois de plus des tendances intéressantes. Pour chacun des parlers étudiés, nous avons en effet montré que l’opposition de durée phonologique continue d’être effective en parole spontanée dans des rapports comparables pour les parlers appartenant à la même zone géographique. En revanche, nous avons vu que d’une zone dialectale à l’autre, les rapports mis en oeuvre étaient significativement différents, la tendance étant que les rapports Vl / Vb croissent d’Ouest en Est, corroborant ainsi le principe défini par Delattre. La mise en parallèle de ces critères discriminants apparaissant de manière exclusive sur l’une ou l’autre des deux aires dialectales étudiées nous a permis de les considérer comme potentiellement pertinents pour la discrimination automatique des parlers arabes par zone géographique. Afin de vérifier cette hypothèse, nous avons mis en place des expériences d’identification automatique en utilisant un modèle de reconnaissance basé sur la modélisation statistique des systèmes vocaliques. Nous avons vu que l’influence de la langue standard pouvait conduire à une mauvaise interprétation des faits phonétiques observés lors de l’analyse des dialectes. De la même manière, la variabilité dialectale et ses implications sur notre filtre phonologique aurait pu nous mener à des transcriptions erronées. Or, le modèle développé par Pellegrino (1998) ne nécessite pas l’emploi de données étiquetées. La possibilité d’utiliser un système fondé sur un apprentissage non-supervisé nous a ainsi semblé pertinente pour notre propos. Les résultats obtenus à l’issue de ces expériences valident la robustesse et la pertinence des deux critères de discrimination définis dans le chapitre 2 de ce travail. Nous obtenons en effet entre 70 % et 90 % d’identification correcte selon le nombre de paramètres de modélisation retenus. Le caractère prometteur de ces premiers résultats nous permet d’envisager la poursuite de nos travaux avec optimisme. En effet, nous entendons continuer notre recherche dans cette voie afin de répondre à un projet de plus grande envergure dont l’objectif à court terme est d’obtenir une description et surtout une comparaison des langues de la famille afro-asiatique, dans son ensemble et à plusieurs échelles (de l’analyse du continuum des parlers régionaux déjà abordé dans ce travail à la comparaison inter-groupes linguistiques).

La prise en compte de cet aspect permettra de concevoir une typologie de ces langues, basée tant sur des critères segmentaux (qualités vocaliques comme dans ce travail, mais aussi lieux d’articulation des consonnes, puisque nous savons que les langues de la famille en question se caractérisent par la prédominance de segments consonantiques d’arrière), que supra-segmentaux (structures rythmiques et prosodiques). A plus long terme, la principale retombée applicative de notre projet résidera dans la mise au point d’un système d’identification des langues afro-asiatiques et de leurs dialectes basé sur une conception modulaire. Cette architecture permettra, de plus, d’exploiter les résultats des différents modules pour parvenir à une description partielle de la langue à identifier, de manière à confronter le système automatique avec la typologie des langues évoquées ci-dessus. Par ailleurs, l’un des aspects les plus important de notre recherche à venir consiste dans l’étude de faisabilité d’un système de modélisation rythmique qui fait actuellement défaut aussi bien aux ingénieurs qu’aux linguistiques.

Du point de vue cognitif, nous savons que la plupart des individus, même non entraînés, parviennent si ce n’est à identifier, tout au moins à émettre une hypothèse quant à l’origine d’une langue étrangère entendue. Cette faculté relève, au niveau cognitif d’un processus qui est encore peu connu. De nombreuses expériences perceptives ont montré l’importance des traits segmentaux (en particulier la nature des unités phonétiques) et supra-segmentaux (en particulier le rythme). Dans le cadre de nos recherches futures, nous nous proposons de relier les capacités d’identification des locuteurs aux distances linguistiques existant entre les différents idiomes. Plusieurs expériences seront entreprises, et ce à différentes échelles de proximité. A l’échelle des dialectes, nous commencerons par chercher à isoler les critères pertinents pour la discrimination des dialectes arabes et berbères, qui, bien que génétiquement et typologiquement proches, présentent des différences perceptives. Au niveau des langues, nous entendons étudier la proximité perceptuelle entre langues afro-asiatiques issues de branches différentes (sémitique vs couchitique, par exemple).

L’étude de la proximité entre langues et plus particulièrement entre dialectes d’une même langue sera également abordée sous un angle original, lié à l’activation des structures cérébrales dans les cas de bilinguismes (arabe / berbère) et/ou de diglossie (arabe standard / arabe dialectal). Les premières études réalisées sur le bilinguismes grâce aux techniques récentes d’Imagerie par Résonance Magnétique fonctionnelle (IRMf) ont montré des différences significatives entre les zones activées par le traitement des différentes langues en présence en milieu bilingue (Kim & al., 1997 ; Perani & al., 1998). Toutefois, ces études ont plus porté sur l’âge d’acquisition et le degré de compétence des locuteurs dans les deux langues mises en jeu que sur la proximité linguistique existant entre ces langues. Pourtant, il nous paraît important d’étudier ce facteur pour parvenir à une meilleure compréhension des processus cognitifs mis en jeu dans ces situations. Nous avons d’ores et déjà abordé cette question lors de notre séjour à l’Université Libre de Bruxelles. Nos premiers résultats montrent que l’activation générée lors de l’utilisation de l’arabe classique s’étend sur un réseau neuronal légèrement supérieur à celui mis en oeuvre lors de l’utilisation de la langue maternelle (c’est-à-dire l’arabe dialectal). Une interprétation possible de cet état de fait consiste à dire que selon le degré de maîtrise de l’arabe classique, le cerveau recrute une zone d’activation variable pour prendre en charge les caractéristiques particulières à cette langue. Nous imaginons ainsi que plus le degré de maîtrise de l’arabe classique augmente, plus le réseau neuronal coïncide avec celui de la langue maternelle. La vérification de cette hypothèse est au centre de nos préoccupations actuelles. Comme nous venons de le rappeler, le traitement linguistique peut être localisé dans des zones cérébrales différentes en fonction de la langue traitée et du degré de bilinguisme. Dans le cas précis de l’arabe, nous avons une situation idéale pour tester des points très proches sur le continuum du bilinguisme en comparant les résultats obtenus sur la localisation de l’activité cérébrale générée par la production et/ou l’écoute de phrases en arabe dialectal et en arabe classique par des sujets arabophones ayant une maîtrise différenciée de l’arabe classique. Il sera par ailleurs intéressant d’étudier à partir de quel seuil de distinctivité linguistique, différentes formes d’arabe dialectal seront traitées dans des zones corticales différentes.