Vérification du locuteur du point de vue de l’apprentissage statistique

Un problème habituel en apprentissage statistique est de classer des exemples en deux catégories; c’est ce qu’on appelle un problème de classification supervisée à deux classes (Bishop, 1995) ⁵ . Les modèles utilisés généralement pour résoudre cette tˆache sont soit discriminants (ils cherchent un hyperplan qui sépare le mieux les deux classes), soit génératifs (ils estiment indépendamment la distribution de chacune des deux classes et utilisent la règle de Bayes pour prendre une décision). Selon Vapnik (2000) ⁶ , il ne faudrait pas essayer de résoudre un problème plus difficile que la tˆache qui est assignée. Donc les modèles discriminants devraient être préférés aux modèles non-discriminants pour des tˆaches de classification. Dans cette thèse on considère le problème de la vérification du locuteur comme un problème de classification à deux classes pour chaque client.

Lorsque l’on parcourt la littérature de la vérification du locuteur, il est intéressant de noter que le modèle de référence dominant ne semble pas discriminant. En fait, tout se trouve dans les détails : la communauté a rajouté empiriquement au cours des années différentes modifications qui permettent d’atteindre de très bonnes performances. Il est possible de montrer, en utilisant un algorithme d’alignement synchrone, que ce modèle basé sur des GMM utilisant des techniques d’adaptation est devenu discriminant avec l’apport de modifications empiriques. Il peut être notamment interprété comme un mélange d’experts linéaires.

L’algorithme d’alignement synchrone a été publié dans :

La comparaison entre différentes méthodes d’adaptation a été publiée dans :

Comme le modèle basé sur des GMM est devenu discriminant, il est intéressant de considérer directement d’autres modèles discriminants comme les SVM. Il faut tout d’abord généraliser le cadre théorique utilisé pour les GMM aux modèles discriminants. Le développement de ce cadre théorique a été originalement présenté dans :

Une extension de ce cadre théorique permet de généraliser les techniques standards de normalisation de scores. Ce travail a été publié dans :

L’idée principale est de rendre les modèles robustes aux changements de conditions d’enregistrement. Le nouveau cadre théorique permet de mieux comprendre les hypothèses faites lors de l’utilisation des méthodes de référence telles que la Z-norm et la T-norm. De plus elle permet le développement de nouvelles techniques de normalisation estimant n’importe quelle forme de distribution de scores alors que les méthodes de référence sont limitées à une distribution gaussienne.

Notes

C. Bishop. Neural Networks for Pattern Recognition. Clarendon Press, Oxford, 1995.

V. N. Vapnik. The nature of statistical learning theory. Springer, second edition, 2000.