Le corpus d’apprentissage est élaboré à partir de la traduction spontanée du texte « La Bise et le Soleil » par dix locuteurs et locutrices arabophones originaires de différents points du domaine linguistique arabe. Pour chacun des dix locuteurs, quatre répétitions du texte suivant ont été acquises.
La bise et le soleil se disputaient
Chacun assurant qu’il était le plus fort
Quand ils ont vu un voyageur qui s’approchait enveloppé dans son manteau
Ils sont tombé d’accord
que le premier qui arriverait à enlever son manteau au voyageur
serait considéré comme le plus fort
Alors la bise s’est mise à souffler de toutes ses forces
mais plus elle soufflait, plus le voyageur serrait son manteau autour de lui
Et au bout d’un moment, la bise a renoncé à le lui faire enlever.
Alors le soleil s’est mis à briller de toutes ses forces,
et au bout d’un moment, le voyageur, réchauffé a ôté son manteau
Ainsi, la bise a dû reconnaître que le soleil était le plus fort des deux.
La durée moyenne d’une répétition (i.e. correspondant aux douze phrases précédentes) est de 30 secondes (2.5 secondes/phrase). Pour modéliser les systèmes vocaliques de chacune des deux zones dialectales, nous avons utilisé les quatre répétitions du texte, soit deux minutes de parole. Rappelons que seuls les segments vocaliques sont utilisés pour la modélisation, ce qui ne représente qu’une fraction de la durée totale des énoncés. Pour chacune des deux zones, nous avons élaboré quatre modèles en fixant, à chaque fois, un nombre de classes vocaliques différent (5, 10, 15, et enfin 20). L’objectif est de déterminer le nombre de classes optimal à partir duquel les meilleurs taux de reconnaissance seront observés73.
La zone occidentale est représentée dans le corpus d’apprentissage à travers des stimuli en arabe algérien et marocain74 La zone orientale par des stimuli en arabe égyptien, syrien, libanais et jordanien. Dix locuteurs ont fourni le matériau d’apprentissage : le modèle maghrébin (i.e. MA) est basé sur les réalisations vocaliques de cinq différents locuteurs : un locuteur algérien (originaire de Oran) et quatre locuteurs marocains (originaires de Rabat et Casablanca). La modélisation de l’espace acoustique moyen-oriental a été obtenue à partir des réalisations vocaliques détectées dans des corpus de cinq locuteurs orientaux originaires de Syrie (deux locuteurs originaires de Alep), du Liban (un locuteur originaire de Beyrouth) et de Jordanie (deux locuteurs originaires de Irbid). Les tableaux suivants répertorient les différents dialectes utilisés pour la modélisation des systèmes vocaliques des parlers arabes maghrébins (Tableau 54) vs orientaux (Tableau 55).
Locuteur | Pays | Ville d’origine | Locuteur | Pays | Ville d’origine | |
B0008 | Algérie | Oran | B0004 | Syrie | Alep | |
B0009 | Maroc | Rabat | B0005 | Jordanie | Irbid | |
B0010 | Maroc | Rabat | B0007 | Jordanie | Irbid | |
B0016 | Maroc | Casablanca | B0020 | Liban | Beyrouth | |
B0017 | Maroc | Casablanca | B0021 | Syrie | Alep |
Des tailles de modèles supérieures à 20 composantes ont été envisagées, mais il s’avère que le nombre de données d’apprentissage est insuffisant pour parvenir à les estimer convenablement.
Les parlers tunisiens présentant des caractéristiques phonético-phonologiques mixtes et plus particulièrement un degré de centralisation des voyelles brèves moindre ainsi qu’un rapport voyelle longue / voyelle brève plus élevé par comparaison aux parlers marocains, ont été volontairement écartés de cette étude afin de ne pas dégrader les résultats obtenus sur la seule base de la distribution et de l’opposition de durée vocaliques. Cette décision a été prise du fait du relativement faible nombre de locuteurs (de manière générale, on parle de modèles indépendants du locuteur au delà de 50 locuteurs d’apprentissage !). L’utilisation de locuteurs tunisiens aurait ainsi conduit à rajouter au modèle de la variabilité alors que nous ne disposons pas, à l’heure actuelle, d’un nombre suffisant de données pour estimer convenablement nos modèles.