Conclusion

De manière générale, dans cette thèse, le cadre théorique de l’apprentissage statistique est utilisé afin de développer une bonne méthodologie et un bon cadre théorique pour la vérification du locuteur. Différents modèles discriminants ont été proposés. Ils améliorent la performance (en terme d’erreur) des systèmes de référence, mais surtout ils augmentent la compréhension de ces modèles.

Cela ouvre différentes directions de recherche. Par exemple, le cadre théorique proposé pour la normalisation des scores permet l’utilisation de nouvelles procédures basées sur des estimations de distributions de scores nongaussiennes. L’utilisation de fenêtres de lissage pour les noyaux de séquences suggère de développer de nouvelles contraintes temporelles pour ces noyaux. Il semble aussi prometteur d’inclure un bruit sur les exemples d’imposteurs afin de couvrir les imposteurs de test. Ce type d’approche peut aussi être utilisé pour compenser des variations de conditions d’enregistrement. Un autre problème général est que, dans les applications réelles, personne ne sait ce que peut être un imposteur, et quel genre de stratégie peut être mise en oeuvre pour percer ces systèmes. Ce problème est d’autant plus difficile à définir qu’un bon imitateur professionnel n’arrive pas à confondre un système automatique, (Mariéthoz and Bengio, 2005) et inversement les êtres humains sont plus performants pour la vérification d’enregistrements en environnements bruités. En terme d’applications, il est évident que les besoins s’orientent de plus en plus vers des applications nomades et donc les futurs systèmes devront être robustes à des environnements très bruités. Même s’il existe déjà des solutions pour des niveaux de bruit raisonnable, pour que ces systèmes soient capable de traiter des enregistrements faits en tous lieux, il faudra sûrement spécialiser les microphones, par exemple par l’utilisation de groupes de microphones (microphone array). Une autre approche consiste à utiliser d’autres modalités biométriques telles que le visage, le suivi du mouvement des lèvres, etc. Des approches existantes combinent les scores de systèmes appris indépendamment sur chaque modalité, mais il serait plus élégant d’apprendre ces modèles de manière conjointe.