V.1.2.Représentation spectrographique non segmentée

Le cochléogramme permet d’obtenir des détails temporels fins (jusqu’à 30 ms) et traiter toutes les dimensions prosodiques en même temps. Cet encodage inclut la prosodie (F0 et intensité) et le spectre dans une représentation commune en fonction du temps. En outre, les évènements sont représentés à une échelle inférieure à celle de la plus petite unité linguistique qui est le phonème. L’identification se fait alors sans segmentation du signal acoustique. Cette représentation ne cherche, en revanche, pas à isoler le signal de parole du bruit de fond.

Nos recherches ont montré que les langues du corpus MULTEXT étaient corrélées au bruit de fond. Effectivement, de très bonnes performances d’identification (60 % pour la segmentation et le cochléogramme) sont atteintes avec une seule trame représentant 30 ms de signal. Ce problème est propre au corpus MULTEXT, mais lorsque la totalité du signal acoustique est utilisée, nous ne pouvons pas garantir que seule la parole permet de distinguer les langues. Le signal acoustique a donc été coupé après 2 secondes afin d’éliminer les zones de silences qui pouvaient servir pour l’identification des langues. Se faisant, le taux d’identification est au niveau du hasard au début du signal étudié.