Noyaux de séquences

Des problèmes propres à la vérification du locuteur rendent l’utilisation de modèles discriminants difficile. Tout d’abord, chaque enregistrement vocal est transformé en séquence de vecteurs de taille variable qui dépend du contenu phonétique de la phrase et du débit de parole propre à chaque locuteur. Malheureusement, la plupart des modèles discriminants fonctionnent uniquement avec des vecteurs de taille fixe. Dans la section précédente, le problème était résolu en utilisant des GMM. Une alternative consiste à utiliser des SVM avec un noyau particulier qui traite des séquences. Habituellement, chaque exemple est un vecteur de taille fixe et le noyau calcule une mesure de similarité entre deux exemples dans un espace de projection.

Afin de pouvoir traiter des séquences, le noyau proposé estime la moyenne des valeurs calculées par un noyau local entre toutes les combinaisons possibles de paires de vecteurs des deux séquences à comparer. Il est possible de montrer que cette approche généralise le modèle de référence proposé par Campbell (2002) ⁷ et est équivalent à ce modèle si le noyau local est de forme polynomiale. Il est intéressant de noter qu’avec l’approche proposée n’importe quel noyau standard peut être utilisé comme noyau local. Ceci est vrai aussi pour des noyaux de dimension infinie comme le noyau gaussien.

Il semble cependant contre-intuitif de comparer tous les vecteurs caractéristiques d’une séquence avec tous les vecteurs caractéristiques d’une autre séquence. En effet, ils représentent une sorte de sous-unité phonétique et donc il semble raisonnable de vouloir comparer des vecteurs caractéristiques représentant le même sous-phonème. Partant de cette idée, un autre noyau de séquences a été développé. Il cherche, pour chaque vecteur caractéristique d’une première séquence, son plus proche voisin dans une deuxième séquence. Cette approche améliore de manière significative les résultats. Il est aussi possible de régulariser la recherche du meilleur vecteur caractéristique en appliquant une fenêtre glissante sur la séquence. Empiriquement, cette approche donne de très bons résultats et suggère de poursuivre la recherche dans cette direction. Les noyaux de séquences ont été publiés dans :

Une version étendue à été soumise au journal Pattern Recognition. Malheureusement, les noyaux de séquences proposés sont relativement coûteux en temps de calcul pour des séquences longues de plusieurs minutes comme c’est le cas pour la base de donnée Switchboard (NIST). Une méthode basée sur des algorithmes de regroupement est proposée pour en réduire la complexité.

Notes

W.M. Campbell. Generalized linear discriminant sequence kernels for speaker recognition.

In Proc IEEE International Conference on Audio Speech and Signal Processing, pages 161–164, 2002.