2.2.2. Pouvoir Discriminant et Robustesse

2.2.2.1. Du pouvoir discriminant des indices phonétiques

Certaines unités phoniques, comme par exemple les consonnes /t ; k / et la voyelle /a/, existent dans la majorité des quelques 5000 langues actuellement parlées (Maddieson & Ladefoged, 1995). De ce fait, elles ne possèdent qu’un très faible pouvoir discriminant et leur détection (même facile) dans le signal acoustique reste souvent peu utile pour notre propos. En revanche, d’autres sons (comme les consonnes pharyngales, laryngales, uvulaires, interdentales et/ou les clicks) s’avèrent être relativement rares dans les systèmes phonologiques des langues du monde. Le pouvoir discriminant d’une unité phonique se définit donc ainsi  : plus le nombre (la proportion) de langues dans lequel un son existe est petit, plus le son en question est discriminant . La typologie des langues à partir des données vocaliques et consonantiques effectuée par Vallée & al., sur la base d’UPSID451 nous a permis de répertorier la fréquence d’occurrence relative des phonèmes de l’arabe et de leur différentes réalisations phonétiques et/ou dialectales par rapport au reste des langues représentées dans la base. Ces proportions sont rapportées par ordre décroissant dans le tableau 4 et permettent d’observer que la distribution de certains phonèmes typiques de la langue arabe (et de ses variétés dialectales) ont une distribution relativement faible sur l’ensemble des langues de la base — entre 0.44 % et 0.22 % pour les consonnes pharyngalisées, par exemple — ce qui en font des candidats potentiellement très intéressants dans le cadre d’une tâche de discrimination linguistique visant à reconnaître l’arabe par rapport aux autres langues du monde.

Tableau 4 : Fréquence d’occurrence des phonèmes et variantes phonétiques de l’arabe sur la base d’UPSID451 (D’après Vallée & al., 1998).
Phonèmes & variantes phonétiques de l’arabe Nombre de langues
comportant le phonème
(sur les 451 langues d’UPSID)
Proportions
(%)
m 425 94.24
k 403 89.36
i 393 87.14
a 392 86.92
j 378 83.81
u 369 81.82
w 332 73.61
b 287 63.64
h 279 61.86
g 253 56.10
216 47.89
n 202 44.79
s 196 43.46
Σ 187 41.46
t 181 40.13
f 180 39.91
l 174 38.58
o 131 29.05
e 124 27.49
d 120 26.61
r 95 21.06
x 94 20.84
74 16.41
66 14.63
z 62 13.75
61 13.53
55 12.20
q 52 11.53
44 9.76
i: 40 8.87
39 8.65
u: 36 7.98
a: 34 7.54
25 5.54
o: 24 5.32
22 4.88
e: 21 4.66
20 4.43
19 4.21
j 19 4.21
aw 18 3.99
18 3.99
: 8 1.77
10 2.22
: 8 1.77
7 1.55
d 2 0.44
t 2 0.44
s 1 0.22

Malheureusement, comme nous l’avons rappelé précédemment peu d’études linguistiques s’intéressent à la fréquence d’occurrence des segments appartenant à l’inventaire des langues décrites. Pourtant ce type d’informations permettrait d’envisager le problème de l’identification de manière plus efficace.

Pour ce qui est de l’arabe, le premier travail sur la fréquence d’occurrence des consonnes de l’arabe a été mené par Ghazali sur la base d’un corpus de 200.000 mots. Une deuxième étude a été réalisée sur un corpus plus important composé de 1.300.000 consonnes attestées dans l’ensemble des racines trilitères présentent dans les textes de la base (Bougadida & al., 1997). Les auteurs obtiennent les résultats répertoriés dans le tableau 5.

Tableau 5 : Fréquence d’occurrence des consonnes de l’arabe standard (% obtenus sur la base d’un corpus contenant 1.300.000 consonnes)
Consonne Fréquence d’occurrence en %
n 11.60
l 11.21
t 11.15
j 8.91
6.30
m 6.05
r 5.07
w 4.82
b 4.20
d 3.33
3.12
h 3.06
s 2.84
f 2.81
q 2.52
2.05
k 1.84
1.32
Σ 1.10
t 1.07
/ d 1.05
s 0.92
0.85
0.85
0.78
z 0.73
0.43
Il apparaît ici aussi que les consonnes les plus fréquentes sont la nasale [n] avec 11.60 % latérale [l] avec 11.21 % et la dentale [t] avec 11.15 %. Cette fréquence s’explique par leur présence dans de nombreux morphèmes grammaticaux (i.e. préfixes verbaux)ce qui nous conduit à les considérer comme peu pertinents pour la reconnaissance de l’arabe par rapport aux autres langues du monde. En revanche, les segments [  message URL interro.gif], [  message URL h.gif] et [ message URL chi.gif] présentent des fréquences d’occurrence correspondant respectivement à 3.12 %, 1.32 % et 0.78 % en arabe et leur distribution dans les langues du monde représentées dans la base UPSID451 correspond à 2.22 % pour [  message URL interro.gif] , 4.21 % pour [  message URL h.gif] et 9.76 % pour [ message URL chi.gif], ces chiffres nous autorisent à considérer ces différents indices comme potentiellement pertinents pour la discrimination de la langue arabe pour peu que l’on puisse les utiliser conjointement.

L’approche de discrimination linguistique conjointe développée par Hombert & Maddieson (1999) constitue une approche intéressante pour l’utilisation des informations liées à la fréquence d’occurrence des sons typiques des langues. Il s’agit d’utiliser conjointement (i.e. en parallèle) plusieurs segments définis comme « rares » et par conséquent, particulièrement discriminants.