2.3.1. Corpus et protocole expérimental

Six variétés dialectales représentatives des deux grandes zones géographiques du Monde Arabe ont été sélectionnées (table 1). Une base de données acoustiques à été élaborée par l’enregistrement de 24 locuteurs (et locutrices) arabophones s’exprimant de manière spontanée dans leur dialecte maternel à partir d’un livre d’images sans texte (Mayer, 1969).

Tableau 7: Origines dialectales représentées à l’intérieur des stimuli et chez les 18 sujets testés.
Maghreb Moyen-Orient
Maroc Syrie
Algérie Liban
Tunisie Jordanie

Les enregistrements, effectués en chambre insonorisée sur magnétophone DAT, ont été digitalisés à 22 kHz,16 bits, monophonique sous Sound Forge©. Quatre-vingt-seize échantillons de parole (soit 2×2 énoncés36 complets/locuteur × 24 (12 hommes et 12 femmes) d’une durée variable allant de sept à trente secondes37 ont ensuite été extraits du corpus. Ils ont ensuite été réorganisés en ordre aléatoire et présentés comme stimuli lors d’un test d’identification dialectale, précédés d’un numéro de passage. Celui-ci a été présenté à 18 autres sujets arabophones « naïfs » (i.e. étudiants et étudiantes non spécialistes de linguistique et/ou de dialectologie), soient : 9 sujets maghrébins et 9 sujets moyen-orientaux originaires des six mêmes pays que ceux représentés dans les stimuli et n’ayant jamais eu de contact avec les personnes dont les voix ont été utilisées pour le matériel expérimental afin d’éviter toute identification dialectale par reconnaissance du locuteur. Les sujets étaient disposés en cercle et à distance égale du dispositif d’écoute consistant en un lecteur CD Panasonic SL-S230 équipé de quatre haut-parleurs de (85 watts). Ils disposaient de quinze secondes pour effectuer les trois tâches suivantes :

  1. Identifier l’origine dialectale du locuteur entendu en fonction de la zone géographique (i.e. Maghreb vs Moyen-Orient).

  2. Identifier le pays dont pouvait être originaire le locuteur parmi les 6 choix proposés (Tableau 6).

  3. Définir (dans la mesure du possible) les indices prosodiques, segmentaux et/ou lexicaux ayant permis l’identification.

Les réponses apportées aux trois tâches précédentes devaient être transcrites sur une grille de réponses pré-formatée distribuée aux sujets en début d’expérience. Outre la détermination expérimentale d’indices discriminants a priori pertinents pour l’identification automatique des parlers arabes, nous avons voulu vérifier auprès de nos sujets les hypothèses conceptuelles suivantes :

  1. L’identification par zone géographique est aisée pour l’ensemble des sujets et constitue de ce fait une réalité linguistique perceptible par des sujets, même non entraînés38.

  2. Les meilleurs scores d’identification sont obtenus pour la distinction du dialecte maternel par rapport aux autres parlers.

  3. Les résultats les moins probants concernent les parlers proches à l’intérieur d’une même zone, ce qui impliquerait, pour ces parlers spécifiquement, une analyse plus fine des traits distinctifs, couvrant plusieurs niveaux de la langue, et l’intégration d’un modèle d’apprentissage particulier (basé, par exemple, sur la détection d’items lexicaux particuliers).

Notes
36.

Plusieurs études d’identification à partir d’échantillons de langues inconnues ont établi l’importance de la phase d’entraînement (Ohala & Gilbert, 1979 ; Maidment, 1983). Dans cette première expérience, nous sommes partis du postulat que les locuteurs arabophones disposent tous d’une connaissance relative des variations de production en fonction de l’origine géographique favorisée par le contact entre ces populations dans la communauté étudiante qui nous a servi de “vivier à sujets”, a été – ici – considérée comme suffisante. Nous n’avons par conséquent pas retenu de phase d’apprentissage dans ce protocole. En revanche, nous avons accordé du temps à l’explication de la troisième tâche (i.e. définition des indices permettant la discrimination). Celle-ci présentée en termes “communs” (i.e. « sons » typiques pour “indices phonétiques », « mélodie, musique de la langue » pour « indices prosodiques » etc). Par ailleurs, nous avons établi sur la base d’exemples ad-hoc un code de transcription exploitable pour l’analyse. Pour ce qui est de la mise en valeur de la prononciation d’un segment spécifique ayant contribué à l’identification dialectale, il a été convenu que les sujets (sachant tous écrire) devaient écrire l’item en arabe classique et cercler le phonème (i.e. « la lettre ») caractérisée par une prononciation particulière.

37.

Des recherches traitant de l’identification de l’identité sociale véhiculée par les usages dialectaux ont montré que 10 à 15 secondes sont suffisantes pour reconnaître l’origine sociale et/ou dialectale.

38.

Plusieurs études ont établi le rôle de la période d’entraînement pour l’amélioration des performances d’identification linguistiques et/ou dialectales. Nous postulons ici que les sujets arabophones possèdent tous une connaissance relative des différentes variétés linguistiques arabes du fait (1) de leur co-habitation sur le territoire Français, (2) des émissions radiophoniques diffusées dans la plupart des dialectes arabes.