Mesures de performance

Tout au long de cette thèse, différents systèmes sont comparés. Afin que ces comparaisons soient le plus objectives possible, il faut utiliser les méthodes les moins biaisées possible et donner un intervalle de confiance pour chaque taux d’erreur mesuré. Les mesures utilisées en vérification du locuteur proviennent de la combinaison de deux types d’erreurs : les faux positifs (le système accepte un imposteur) et les faux négatifs (le système rejette un client). L’erreur résultante est obtenue en faisant varier le seuil de décision, soit en minimisant une fonction de coût qui dépend du niveau de sécurité voulu, soit en considérant tous les seuils possibles. Dans le premier cas, un nombre est obtenu, dans le second, l’ensemble des nombres est représenté sous la forme d’une courbe appelée courbe DET (Martin et al., 1997) 4 . Lorsque le seuil est estimé sur une population de clients différente (ensemble de développement) de celle utilisée pour estimer la qualité d’un système (ensemble de test) on l’appelle a priori sinon on l’appelle a posteriori. Un seuil a posteriori donne des résultats biaisés de manière optimiste et ne devrait donc pas être utilisé pour comparer différents systèmes.

Malheureusement, en parcourant la littérature, les mesures a posteriori sont souvent utilisées pour comparer des systèmes. En particulier la courbe DET est une courbe a posteriori et donc ne devrait pas être utilisée pour comparer des systèmes. De nouvelles courbes appelées courbes de performances espérées (EPC), incluant l’estimation des seuils sur un ensemble de développement, ont été développées dans le cadre de cette thèse. Ce travail de recherche a été publié dans :

et plus spécifiquement pour la vérification du locuteur dans :

De plus comme aucun test statistique, permettant d’estimer un intervalle de confiance, n’est directement utilisable pour la vérification du locuteur, une variante du Z-test, très utilisé, à été proposé dans :

Ce test permet de dire si deux systèmes peuvent être considérés comme statistiquement significativement différents ou non avec plus de 95% de confiance.

Toutes les expériences faites dans cette thèse ont été effectuées avec l’aide de trois bases de données :

Switchboard : base de données d’enregistrements téléphoniques américaine utilisée durant les concours NIST effectués chaque année par la communauté de la vérification du locuteur.

Polyvar : base de données d’enregistrements téléphoniques en français enregistrée durant plus d’une année.

Banca : base de données incluant des enregistrements effectués dans des environnements

de qualités variées.

Pour chacune de ces bases, les résultats des modèles de référence obtenus correspondent à ceux trouvés dans la littérature. Un protocole expérimental a été créé pour l’utilisation de modèles discriminants. La base de donnée Banca ainsi que son protocole ont été publiés dans :

La base de donnée Polyvar et son protocole ont été décrits dans :

Notes
4.

A. Martin, G. Doddington, T. Kamm, M. Ordowski, and M. Przybocki. The DET curve in assessment of detection task performance. In Proceedings of Eurospeech’97, Rhodes, Greece, pages 1895–1898, 1997.