2.2.2.2. La discrimination linguistique conjointe

La notion de discrimination linguistique conjointe se base sur le principe de la probabilité de co-occurrence de plusieurs unités linguistiques discriminantes dans une même langue.

Considérons à titre d’exemple la distribution — dans les langues représentées dans la base UPSID451 — des trois indices acoustiques discriminants suivants : (1) la fricative pharyngale / message URL interro.gif/ ; (2) la fricative pharyngale / message URL h.gif/ et l’occlusive pharyngalisée /t message URL exposant.gif/, sont présentes dans respectivement 2,22 %, 4,21% et 0,44 % de langues. En supposant que les probabilités d’apparition de ces traits sont indépendantes, la probabilité de rencontrer — dans une même langue — les deux premières unités (soient / message URL interro.gif/  et / message URL h.gif/) on s’aperçoit qu’elle est infime (p =  .0001). De ce fait, la probabilité de rencontrer une langue où la co-occurrence des trois indices / message URL interro.gif/ ; / message URL h.gif/ et /t message URL exposant.gif/ est effective sera plus faible encore (p = 4.1 × 10-6). Le caractère extrêmement faible de cette probabilité permet déjà d’éliminer un nombre considérable de langues et d’envisager un groupe très restreint d’entités linguistiques caractérisées par cette triple occurrence. Or, l’arabe et le berbère attestent dans leurs inventaires phonologiques la présence de ces trois unités permet donc de les classer dans le groupe précédemment défini. La distinction de ces deux langues basée sur le même principe nécessitera à son tour l’utilisation conjointe de critères exclusifs (i.e. présents dans l’une ou l’autre de ces deux langues) réduira d’autant la probabilité obtenue au niveau supérieur pour ne retenir qu’un moindre nombre de candidats.

Le point important à retenir de cette approche est qu’un système d’identification linguistique conçu à partir de la reconnaissance de traits co-occurrents — eux-mêmes mis en valeur par une description linguistique fine de la langue et/ou du dialecte — conduirait à des scores d’identification correcte plus importants que ceux obtenus aujourd’hui, sous réserve de la robustesse des traits en question, comme nous allons le voir maintenant.