Discrmininant Models for Text-independent Speaker Verification / Algorithmes d'apprentissage discriminants en vérification du locuteur

Métadonnées du document

Identifiant du document lyon2.2006.mariethoz_j

Code de l'institution lyon2

Année 2006

Auteurs MARIÉTHOZ Johnny

Titre Discrmininant Models for Text-independent Speaker Verification / Algorithmes d'apprentissage discriminants en vérification du locuteur

Membres du jury GRANDVALET YVES --- PAUGAM-MOISY Hélène --- BONASTRE Jean-françois --- BENGIO Samy

Directeurs de thèses PAUGAM-MOISY Hélène

Diplome Doctorat Nouveau Régime

Etablissement Université Lumière Lyon 2

Ecole Doctorale Sciences Cognitives

Factulté Institut de Psychologie

Discipline Sciences cognitives

Date de soutenance 2006-12-20

Type de document Thèse de Doctorat Nouveau Régime

Résumés

fr Dans cette thèse le problème de la vérification du locuteur indépendante du texte est abordée du point de vue de l'apprentissage statistique (machine learning). Les théories développées en apprentissage statistique permettent de mieux définir ce problème, de développer de nouvelles mesures de performance non-biaisées et de proposer de nouveaux tests statistiques afin de comparer objectivement les modèles proposés. Une nouvelle interprétation des modèles de l'état de l'art basée sur des mixtures de gaussiennes (GMM) montre que ces modèles sont en fait discriminants et équivalents à une mixture d'experts linéaires. Un cadre théorique général pour la normalisation des scores est aussi proposé pour des modèles probabilistes et non-probabilistes. Grâce à ce nouveau cadre théorique, les hypothèses faites lors de l'utilisation de la normalisation Z et T (T- and Z-norm) sont mises en évidence.Différents modèles discriminants sont proposés. On présente un nouveau noyau utilisé par des machines à vecteurs de support (SVM) qui permet de traîter des séquences. Ce noyau est en fait la généralisation d'un noyau déjà existant qui présente l'inconvénient d'être limité à une forme polynomiale. La nouvelle approche proposée permet la projection des données dans un espace de dimension infinie, comme c'est le cas, par exemple, avec l'utilisation d'un noyau gaussien. Une variante de ce noyau cherchant le meilleur vecteur acoustique (frame) dans la séquence à comparer, améliore les résultats actuellement connus. Comme cette approche est particulièrement coûteuse pour les séquences longues, un algorithme de regroupement (clustering) est utilisé pour en réduire la complexité.Finalement, cette thèse aborde aussi des problèmes spécifiques de la vé-ri-fi-ca-tion du locuteur, comme le fait que les nombres d'exemples positifs et négatifs sont très déséquilibrés et que la distribution des distances intra et inter classes est spécifique de ce type de problème. Ainsi, le noyau est modifié en ajoutant un bruit gaussien sur chaque exemple négatif. Même si cette approche manque de justification théorique pour l'instant, elle produit de très bons résultats empiriques et ouvre des perspectives intéressantes pour de futures recherches.

en This thesis addresses text-independent speaker verification from a machine learning point of view. We use the machine learning framework to better define the problem and to develop new unbiased performance measures and statistical tests to compare objectively new approaches. We propose a new interpretation of the state-of-the-art Gaussian Mixture Model based system and show that they are discriminant and equivalent to a mixture of linear classifiers. A general framework for score normalization is also given for both probability and non-probability based models. With this new framework we better show the hypotheses made for the well known Z- and T- score normalization techniques.Several uses of discriminant models are then proposed. In particular, we develop a new sequence kernel for Support Vector Machines that generalizes an other sequence kernel found in the literature. If the latter is limited to a polynomial form the former allows the use of infinite space kernels such as Radial Basis Functions. A variant of this kernel that finds the best match for each frame of the sequence to be compared, actually outperforms the state-of-the-art systems. As our new sequence kernel is computationally costly for long sequences, a clustering technique is proposed for reducing the complexity.We also address in this thesis some problems specific to speaker verification such as the fact that the classes are highly unbalanced. And the use of a specific intra- and inter-class distance distribution is proposed by modifying the kernel in order to assume a Gaussian noise distribution over negative examples. Even if this approach misses some theoretical justification, it gives very good empirical results and opens a new research direction.

Mots-clés

fr	mixture de gaussiennes; machine à vecteurs de support; fonction de coût;
en	Gaussian Mixture Models; Support Vector Machines; loss

Editeur CyberDocs

Format text/xml

Langue en

Copyright Copyright MARIÉTHOZ Johnny et Université Lumière - Lyon 2 - 2006.Ce document est protégé en vertu de la loi du droit d'auteur.

Diffusion [internet]

Identifier http://theses.univ-lyon2.fr/documents/lyon2/2006/mariethoz_j

Extent 215481

Menu

Métadonnées du document