4.5.2.1. Description des données employées

4.5.2.1.1. Corpus d’apprentissage

Le corpus d’apprentissage est élaboré à partir de la traduction spontanée du texte « La Bise et le Soleil » par dix locuteurs et locutrices arabophones originaires de différents points du domaine linguistique arabe. Pour chacun des dix locuteurs, quatre répétitions du texte suivant ont été acquises.

  1. La bise et le soleil se disputaient

  2. Chacun assurant qu’il était le plus fort

  3. Quand ils ont vu un voyageur qui s’approchait enveloppé dans son manteau

  4. Ils sont tombé d’accord

  5. que le premier qui arriverait à enlever son manteau au voyageur

  6. serait considéré comme le plus fort

  7. Alors la bise s’est mise à souffler de toutes ses forces

  8. mais plus elle soufflait, plus le voyageur serrait son manteau autour de lui

  9. Et au bout d’un moment, la bise a renoncé à le lui faire enlever.

  10. Alors le soleil s’est mis à briller de toutes ses forces,

  11. et au bout d’un moment, le voyageur, réchauffé a ôté son manteau

  12. Ainsi, la bise a dû reconnaître que le soleil était le plus fort des deux.

La durée moyenne d’une répétition (i.e. correspondant aux douze phrases précédentes) est de 30 secondes (2.5 secondes/phrase). Pour modéliser les systèmes vocaliques de chacune des deux zones dialectales, nous avons utilisé les quatre répétitions du texte, soit deux minutes de parole. Rappelons que seuls les segments vocaliques sont utilisés pour la modélisation, ce qui ne représente qu’une fraction de la durée totale des énoncés. Pour chacune des deux zones, nous avons élaboré quatre modèles en fixant, à chaque fois, un nombre de classes vocaliques différent (5, 10, 15, et enfin 20). L’objectif est de déterminer le nombre de classes optimal à partir duquel les meilleurs taux de reconnaissance seront observés73.

La zone occidentale est représentée dans le corpus d’apprentissage à travers des stimuli en arabe algérien et marocain74 La zone orientale par des stimuli en arabe égyptien, syrien, libanais et jordanien. Dix locuteurs ont fourni le matériau d’apprentissage : le modèle maghrébin (i.e. MA) est basé sur les réalisations vocaliques de cinq différents locuteurs : un locuteur algérien (originaire de Oran) et quatre locuteurs marocains (originaires de Rabat et Casablanca). La modélisation de l’espace acoustique moyen-oriental a été obtenue à partir des réalisations vocaliques détectées dans des corpus de cinq locuteurs orientaux originaires de Syrie (deux locuteurs originaires de Alep), du Liban (un locuteur originaire de Beyrouth) et de Jordanie (deux locuteurs originaires de Irbid). Les tableaux suivants répertorient les différents dialectes utilisés pour la modélisation des systèmes vocaliques des parlers arabes maghrébins (Tableau 54) vs orientaux (Tableau 55).

Tableau 54 : Variétés dialectales occidentales Tableau 55 : Variétés dialectales orientalesreprésentées dans le corpus d’apprentissagereprésentées dans le corpus d’apprentissage
Locuteur Pays Ville d’origine Locuteur Pays Ville d’origine
B0008 Algérie Oran B0004 Syrie Alep
B0009 Maroc Rabat B0005 Jordanie Irbid
B0010 Maroc Rabat B0007 Jordanie Irbid
B0016 Maroc Casablanca B0020 Liban Beyrouth
B0017 Maroc Casablanca B0021 Syrie Alep

Notes
73.

Des tailles de modèles supérieures à 20 composantes ont été envisagées, mais il s’avère que le nombre de données d’apprentissage est insuffisant pour parvenir à les estimer convenablement.

74.

Les parlers tunisiens présentant des caractéristiques phonético-phonologiques mixtes et plus particulièrement un degré de centralisation des voyelles brèves moindre ainsi qu’un rapport voyelle longue / voyelle brève plus élevé par comparaison aux parlers marocains, ont été volontairement écartés de cette étude afin de ne pas dégrader les résultats obtenus sur la seule base de la distribution et de l’opposition de durée vocaliques. Cette décision a été prise du fait du relativement faible nombre de locuteurs (de manière générale, on parle de modèles indépendants du locuteur au delà de 50 locuteurs d’apprentissage !). L’utilisation de locuteurs tunisiens aurait ainsi conduit à rajouter au modèle de la variabilité alors que nous ne disposons pas, à l’heure actuelle, d’un nombre suffisant de données pour estimer convenablement nos modèles.