III.3.1.Analyse des données

Parmi les premières méthodes testées (cf. section IV.1) nous avons des méthodes issues soit des statistiques (prototype moyen et analyse discriminante utilisation du logiciel SPSS), soit du connexionnisme (réseaux probabilistes, cartes auto-organisatrice de Kohonen, 1982).

Le réseau probabiliste (désigné sous l’abréviation pnn dans la boîte à outils réseau de Matlab) apprend les exemples de la base d’apprentissage. Il faut ensuite déterminer le rayon qui permet d’obtenir les meilleures performances en validation. Pour cet apprentissage, nous n’avons pas testé systématiquement avec un corpus de développement supplémentaire, pour pratiquer la validation en aveugle. Dans cas, la performance annoncée indique un seuil maximal d’identification.

Des cartes auto-organisatrice de Kohonen (abrégées par SOM, Boîte à outils réseaux de MATLAB) seront également étudiées. Ce dernier apprentissage est non supervisé et différents paramètres (comme le nombre de cycles d’apprentissage, l’architecture de la carte) seront indiqués pour chaque utilisation. Dans chacun de ces cas, nous aurons recours à deux sous-ensembles distincts d’apprentissage et de validation, couvrant chacun la moitié des valeurs disponibles dans le corpus. Durant l’apprentissage, le neurone qui répond à un mot testé se voit assigner la catégorie de ce mot. Dans le cas où un neurone répond aussi à bien des mots de l’une ou l’autre des catégories, la catégorie à laquelle il a répondu le plus souvent lui est assignée. Nous donnons alors les performances d’identification de ce réseau pour le corpus de validation.