Un système d’IAL se construit toujours en deux étapes : apprentissage et validation. Ainsi, l’étape d’apprentissage établit un modèle de chaque langue à reconnaître, à partir d’un ensemble de données, constituées du signal de parole de plusieurs locuteurs, de segmentation phonémique, de motifs articulatoires. En phase de test (validation ou développement 62 ), le signal de parole à identifier est comparé aux modèles de langues construits, afin de déterminer la langue de l’extrait (Figure 3.1). L’une des difficultés majeures de l’IAL est de bien justifier que c’est la langue parlée elle-même qui est reconnue, et non le locuteur (ou d’autres indices présents dans le signal enregistré). Ainsi, pour éviter que le système identifie le locuteur, les bases d’apprentissage et de test contiennent toujours des locuteurs distincts (Dutat, 2000).
Avant d’effectuer l’identification, les signaux de paroles sont le plus souvent traduits sous la forme d’unités symboliques. Deux solutions sont possibles pour assigner une valeur discrète à un motif acoustique (par exemple, lors de la reconnaissance des phonèmes) :
Ainsi, les applications d’IAL se subdivisent en deux types: les systèmes non supervisés où les motifs acoustiques permettant la distinction des langues doivent être trouvés de manière automatique et les systèmes supervisés pour lesquels les motifs acoustiques sont appris. Les systèmes non supervisés sont généralement plus efficaces pour les courtes durées et les systèmes supervisés donnent les performances les plus élevées en IAL 63 (Zissman et Berkling, 2001).
Le corpus OGI-MLTS dresse une liste des fichiers répartis en trois corpus : apprentissage, développement et validation. La validation est la phase du test final. Le développement est une étape intermédiaire, qui permet de vérifier la validé des indices retenus pendant l’apprentissage.
Les thèses de F. Pellegrino (1998) et H.P. Combrinck (1999) dressent des tableaux des performances de ces deux types de systèmes.