4.3. La modélisation des segments vocaliques

Ils se dégage des études en typologie linguistique que les systèmes vocaliques des langues présentent un important pouvoir discriminant tout en offrant les avantages d’une représentation homogène (Vallée, 1994). La représentation acoustique des voyelles présente, comme nous le savons, un isomorphisme remarquable fondé essentiellement sur une représentation articulatoire en deux dimensions (i.e. avant ~ arrière vs ouvert ~ fermé).

Cette relative simplicité de forme ne se retrouve pas dans le cas des segments consonantiques pour lesquelles on atteste des divergences importantes tant au niveau du lieu que du mode d’articulation. Ces différences formelles s’observent d’ailleurs sur la structure acoustique des consonnes (par exemple, bruit d’explosion d’une occlusive vs bruit de friction d’une fricative), et ont été largement décrites dans la littérature (Maddieson, 1995). Notons que dans le cas précis de l’arabe, cette difficulté se trouve renforcée par l’existence de phonèmes consonantiques complexes caractérisés par une double articulation67.

Autant de paramètres qui ont mené l’auteur à restreindre son modèle à la modélisation des systèmes vocaliques. Ceci nous permettra d’évaluer les traits discriminants mis en évidence au cours des chapitres précédents concernant la dispersion et la quantité des segments vocaliques. En effet, le système présenté dans son travail et utilisé dans cette thèse dans le cadre de nos applications pour la discrimination des dialectes arabes, est fondamentalement basé sur la localisation automatique des segments vocaliques dans le signal et sur leur modélisation acoustique.

Dans les paragraphes suivants, nous présentons brièvement le cadre statistique sur lequel se base ce modèle. Nous n’entendons pas décrire de manière détaillée l’éventail des algorithmes utilisés en amont, et renvoyons le lecteur désireux d’obtenir de plus amples informations à ce propos à l’ouvrage de référence qui lui est consacré (Pellegrino, 1998).

Notes
67.
L’emphase (ou pour le cas de l’arabe : la pharyngalisation) se définit en effet, du point de vue articulatoire, comme la surimposition d’une articulation secondaire (ici la rétraction de la racine de la langue accompagnée de la restriction de la cavité pharyngale, voir entre autres, Ghazali, 1977b) à une articulation primaire. En arabe, comme nous l’avons déjà vu au cours de ce travail, ce trait de pharyngalisation est phonologiquement associé aux consonnes dentales /t message URL exposant.gif ; d message URL exposant.gif/, interdentale / message URL delta.gif message URL exposant.gif / et/ou sibilantes /s message URL exposant.gif, z message URL exposant.gif/. Ce trait peut par ailleurs, s’étendre à d’autres segments (vocaliques et/ou consonantiques) à l’intérieur d’une même unité phonologique (i.e. suite d’un radical et de ses affixes), lui conférant ainsi une coloration toute particulière perceptible à l’oreille et visible sur le signal acoustique au niveau des transitions formantiques. L’analyse acoustique de ce phénomène d’assimilation contextuelle (progressive et/ou régressive) se révèle être le siège d’une grande variabilité dialectale sur le domaine arabophone. Il constitue néanmoins, avec la gémination, l’une des caractéristiques phonologiques les plus originales de l’arabe (et d’une partie des langues sémitiques). Néanmoins, dans leurs travaux visant à identifier les traits phonétiques des consonnes de l’arabe de manière automatique, Boudraa & al. (1994) et Selouani & Caelen (1998) ont montré que les performances des systèmes de reconnaissance automatique pouvaient être améliorés par l’intégration d’un ensemble de sous-réseaux de neurones spécialisés dans l’identification de ces traits phonétiques spécifiquement. Les résultats obtenus montrent que les réseaux d’experts connexionnistes constituent des systèmes d’appoints simples et performants.