II.3.2.Apprentissage à partir d’exemple (Durieux et Gillis, 2000)

Durieux et Gillis (2000) ont proposé un système artificiel pour assigner des classes grammaticales, en utilisant diverses informations phonologiques et prosodiques. Leur système apprend un certain nombre d’exemples, et détermine pour un nouvel item, lequel des exemples appris en est le plus proche. Cet apprentissage dénommé « Lazy Learning » est utilisé dans une procédure de validation croisé (ou « leaving one out »).

Leur premier ensemble testé contient 212 noms, 215 verbes, et 16 formes ambiguës, (tous dissyllabiques et homographes). La position de l’accent (noté de façon discrète) permet d’identifier les noms et les verbes avec un score de 82.6 %. Lorsque cet ensemble est étendu à 5000 mots non homophones et contenant jusqu’à quatre syllabes, les performances chutent, en particulier pour l’identification des verbes ( < 40 %). D’autres différences pourraient distinguer les noms des verbes, ainsi le premier « s » de « uses » n’est pas voisé, ou la première voyelle de « cashier » est réduite à un schwa dans le cas d’un verbe.

Une autre expérience est proposée à partir de l’ensemble des indices phonologiques mis à jour par Kelly (1996). Les performances atteignent 78.2 % pour 5000 mots tirés au hasard. Un indice isolant les noms des verbes en Anglais peut être moins prédictif dans une autre langue (de 66 % en Anglais à 58 % en Néerlandais pour l’accent).

Leur dernière expérience porte sur l’identification de quatre catégories (noms, verbes, adjectifs et adverbes) pour deux langues. Les scores sont 66.7 % et 71 %, deux performances supérieures à un tirage aléatoire. L’utilisation combinée des indices phonologiques et prosodiques permet d’obtenir les meilleurs résultats pour l’identification de plusieurs classes grammaticales de mots de contenu, pour l’Anglais ainsi que le Néerlandais.