Qu’est-ce que l’apprentissage statistique ?

L’apprentissage statistique est un domaine à la frontière de l’informatique et des statistiques. Il consiste à développer des algorithmes qui permettent aux ordinateurs “d’apprendre” grˆace à l’expérience. Pour apprendre une solution à un problème, l’algorithme a besoin d’exemples d’apprentissage. Le but est alors de trouver la meilleure fonction, parmi un ensemble préétabli de fonctions, en minimisant une fonction de coût sur les exemples d’apprentissage. L’ensemble de fonctions choisi au préalable doit être suffisamment riche pour contenir une bonne solution, mais suffisamment simple pour que la solution choisie puisse être généralisée à des exemples jamais vus par le système. La solution trouvée par un algorithme d’apprentissage statistique est appelée modèle. La communauté de l’apprentissage statistique a développé des algorithmes pour résoudre des problèmes variés tels que : la vérification du locuteur, la catégorisation de textes, la vérification d’identité utilisant le visage, etc.

Modèles de référence

Le modèle le plus utilisé en vérification du locuteur est basé sur des mélanges de distributions gaussiennes (GMM) (Reynolds and Rose, 1995) 1 . On commence par entraîner un premier GMM, appelé modèle de monde, en maximisant la vraisemblance des exemples d’enregistrements vocaux venant d’une grande quantité de locuteurs. Plus la diversité des locuteurs est grande, meilleur sera le modèle. Ce modèle représente l’hypothèse qu’un imposteur a prononcé la phrase enregistrée. Par opposition le modèle client représente l’hypothèse que le client a prononcé la phrase enregistrée. Contrairement au modèle de monde, le nombre d’exemples d’entraînement disponibles pour estimer ce modèle est restreint : le client prononce généralement entre une et trois phrases avant d’utiliser le système. Donc, comme peu de données sont disponibles, plutôt que d’apprendre un nouveau GMM avec les données du client, les paramètres du modèle de monde sont adaptés avec ces données. Cette méthode, appelée Maximum A Posteriori (MAP), (Gauvain and Lee, 1994) 2 comporte un paramètre à ajuster qui permet de contraindre le modèle client à rester plus ou moins proche du modèle de monde. Habituellement seules les moyennes des gaussiennes sont modifiées. Finalement lors de la prise de décision, chaque hypothèse est testée en calculant un score, appelé vraisemblance, pour chacun des modèles. Le ratio de ces vraisemblances est comparé à un seuil de décision appris au préalable sur un autre ensemble de clients. Ce seuil est donc indépendant des clients.

Il est à noter que pour obtenir des performances optimales, des modifications ont été apportées de manière empirique par la communauté de la vérification du locuteur. L’utilisation de techniques d’adaptation en est une. Un facteur de normalisation a aussi été ajouté pour rendre le ratio des vraisemblances indépendant de la longueur de la phrase à traiter. De plus, lors de l’estimation du modèle de monde, les variances des gaussiennes sont contraintes à des valeurs minimales souvent comprises entre 10 et 60% de la variance globale des données. Les modèles de référence sont donc a priori non-discriminants, en ce sens que chaque classe est modélisée séparément, ce qui va à l’encontre de la vision de l’apprentissage statistique. De plus les modifications citées plus haut n’ont pas toutes de justification théorique.

Récemment, Campbell (2002) 3 a proposé l’utilisation d’un modèle discriminant pour la vérification du locuteur qui a donné de bons résultats empiriques. Le noyau proposé permet de calculer une mesure de similarité entre deux enregistrements vocaux, chacun représenté par une séquence de taille variable de vecteurs caractéristiques. Il s’agit de calculer pour chaque vecteur caractéristique une expansion polynomiale de degré trois et de moyenner les vecteurs étendus sur toute la séquence. Le vecteur résultant est utilisé comme entrée d’une machine à vecteurs de support (SVM) avec un noyau linéaire. Même si cette approche semble prometteuse, elle est limitée aux noyaux polynomiaux et manque d’interprétation théorique.

Notes
1.

D. A. Reynolds and R. C. Rose. Robust text-independent speaker identification using

gaussian mixture speaker models. IEEE Transactions On Speech and Audio Processing, 3

(1), 1995.

2.

J. L. Gauvain and C.-H. Lee. Maximum a posteriori estimation for multivariate gaussian

mixture observation of markov chains. In IEEE Transactions on Speech Audio Processing,

volume 2, pages 291–298, April 1994.

3.

W.M. Campbell. Generalized linear discriminant sequence kernels for speaker recognition. In Proc IEEE International Conference on Audio Speech and Signal Processing, pages 161–164, 2002.