IV.1.2.Classifieur à moyenne gaussienne

Nous décrivons ici une méthode statistique d’identification automatique des langues à partir du pourcentage vocalique.

IV.1.2.1.Descriptif de la méthode employée

L’algorithme prend en compte un nombre fixe de phonèmes, qui doit être le même pour chaque passage à identifier. Une phrase est représentée par un vecteur indiquant le pourcentage vocalique obtenu sur la durée du début de la phrase jusqu’au phonème courant.

Les tests sont effectués avec un corpus d’apprentissage et un corpus de validation, tirés du corpus OGI-MLTS. Pour éviter une dissymétrie des corpora, ils seront testés chacun pour la phase d’apprentissage et de validation. La moyenne des résultats obtenus sur les corpora utilisés en validation ou en apprentissage est alors indiquée.