Mesures de similarité

Un autre problème spécifique de la vérification du locuteur est le fort déséquilibre qui existe entre le nombre de données d’entraînement du client et celui des imposteurs. Le client prononce habituellement entre une et trois phrases, alors que les phrases imposteurs viennent d’une large population de locuteurs (souvent plusieurs centaines). Il semble donc important de tenir compte de ce déséquilibre lors de l’apprentissage. Dans le cas des SVM, il existe des critères qui tiennent compte de ce phénomène, (Lin et al., 2002) 8 . Une approche basée sur une interprétation probabiliste des SVM pour résoudre ce problème

a aussi été proposée dans :

Empiriquement, ces deux approches n’ont donné aucun résultat probant pour le cas de la vérification du locuteur. Cela peut être expliqué par le fait que la fonction optimale trouvée par la SVM sépare parfaitement les données. Cela veut dire que tous les exemples d’apprentissage ont été correctement classés par le modèle. Dans ce cas, la modification de la fonction de coût ne sert à rien.

En fait, le déséquilibre lui-même n’est plus vraiment important, car la SVM va considérer uniquement les exemples proches de la surface de séparation. Par contre, si le déséquilibre des données ne semble pas un problème, il reste que la distribution des imposteurs est peu représentative. En effet, si les exemples d’apprentissage d’un client doivent couvrir la variabilité d’un seul locuteur, les exemples d’un locuteur utilisés comme donnée d’imposture doivent couvrir sa propre variabilité, mais aussi celle d’éventuels futurs imposteurs. Un bon modèle devrait donc tenir compte de cette particularité. Vapnik (2000) 9 propose une méthode appelée minimisation du risque de proximité (vicinal risk minimization) qui considère des distributions plutôt que des points comme exemples d’apprentissage. Partant de cette idée, un bruit gaussien est rajouté sur chaque exemple d’imposteur. Si le noyau de la SVM est gaussien, la solution est analytique. Afin d’obtenir de très bons résultats empiriques, des simplifications ont été nécessaires. Même si finalement, la justification théorique reste incomplète, les résultats obtenus orientent la recherche en ce sens.

Notes
8.

Y. Lin, Y. Lee, and G. Wahba. Support vector machines for classification in nonstandard situations. Machine Learning, 46:191–202, 2002.

9.

V. N. Vapnik. The nature of statistical learning theory. Springer, second edition, 2000.