3.1 Les recherches pour accomplir dans l'avenir

Le modèle conçu dans cette thèse n'est pas accompli. Il faut le compléter. Selon ce qu'on a déjà dit, le modèle conçu peut reconnaître un ensemble d’à peu près 90% des syntagmes nominaux d'un texte en langue portugaise. Il faut chercher à arriver aux environs de 100% de reconnaissance des syntagmes nominaux dans ces textes puisqu'il y a d'autres applications dans le champ des sciences de l'information où l'utilisation des syntagmes nominaux est parfaitement appropriée. Nous en parlerons dans la prochaine section. Ces applications sont naturellement différentes de l'indexation automatique, pour cela le modèle actuel peut ne pas être suffisant.

Ainsi nous allons énumérer les points nécessaires pour compléter de ce modèle :

  1. En ce qui concerne la grammaire de référence, c'est-à-dire la partie de caractérisation des unités lexicales, il faut étudier et détailler le traitement des pronoms relatifs et des conjonctions de subordination pour avoir une définition complète de la catégorie Q. Cela doit être développé avec l'établissement d'une syntaxe pour la reconnaissance des syntagmes nominaux qui contiennent ces unités ;
  2. Il faut aussi étudier de plus près les éléments anaphoriques et proposer une sorte de traitement qui puisse résoudre les sources de ces éléments de manière à faciliter la reconnaissance des syntagmes nominaux cachés dans ces éléments. Parmi ces éléments anaphoriques, il y a ceux qui forment de nouveaux syntagmes nominaux et il y a ceux qui n'en forment pas. La reconnaissance des syntagmes nominaux formés dans le premier cas est importante pour l'indexation automatique puisqu'ils peuvent former des syntagmes nominaux de niveau plus haut. Tandis que les syntagmes qui ne forment pas des nouveaux syntagmes, ceux qui constituent plutôt une nouvelle occurrence, bien qu'ils puissent être écartés de l'indexation automatique, mais ils sont importants pour les études d'analyse de contenu. Il s'agit de ceux qui sont basés sur le comptage des cooccurrences de syntagmes nominaux. La non-reconnaissancee de ces syntagmes fournira certainement de faux résultats dans l'analyse de contenu basée sur la cooccurrence des syntagmes nominaux ;
  3. Il faut encore étudier le comportement des verbes dans les syntagmes nominaux de manière à définir une syntaxe de réécriture de SN avec la présence de verbes, soit quand il apparaît seul dans le syntagme et aussi quand il apparaît accompagné des verbes auxiliaires. D'une certaine manière cette recherche est liée à la recherche des syntagmes nominaux avec des conjonctions de subordination et des pronoms relatifs puisque les verbes apparaissent souvent après ces dernières unités (la catégorie Q) ;
  4. Une fois implémenté le modèle de système de recherche d'information proposé par cette thèse, il faut faire une étude d'évaluation de ce système. Pour cela il est nécessaire d'avoir un corpus suffisamment grand pour qu'on puisse évaluer le système proposé. Cette évaluation devra avoir comme but de connaître deux aspects du modèle proposé : 1) l'efficacité des syntagmes nominaux comme moyens d'accès à l'information ; 2) la satisfaction de l'usager en ce qui concerne la convivialité de l'interface de recherche d'information. Ainsi, il n'est pas suffisant d'avoir un bon corpus, mais il faut aussi constituer un ensemble d'usagers, organisé d’une telle manière qu'il puisse donner à connaître la performance de ce système pour les usagers novices et pour les usagers expérimentés. Il faut donc établir des critères bien définis autant au niveau du corpus qu'au niveau des usagers. Il ne faut pas oublier que ce modèle de système sera plus performant lorsqu'il travaille sur une base de données dans des domaines plus restreints. C'est-à-dire qu’il faut choisir un domaine d'information le plus spécifique possible, ce qui évitera les ambiguïtés ;
  5. Une autre recherche qu'il faut développer, c'est l'évaluation ou plutôt la détermination des SN qui sont signifiants ou qui ont le statut d'un descripteur. Pour cela, il nous semble qu'il faut établir des critères qui puissent définir un descripteur et développer des outils de détermination des SN qui ont le statut de descripteur. Dans ce sens là, l'utilisation des outils statistiques (p. ex.: l'analyse factorielle et de correspondance) peuvent aider dans cette procédure.