1.1.1 La base de texte

La distinction entre une représentation de surface qui code de façon littérale les mots et la syntaxe, et un niveau sémantique duquel se dégage la signification du texte a été proposée par Kintsch et van Dijk (1978). Dans leur modèle, ces auteurs décomposent le niveau sémantique ou base de texte en deux structures cohérentes : la microstructure et la macrostructure. Celles-ci sont construites en parallèle, de manière interactive et sans contraindre les ressources du système. La microstructure représente la signification locale du texte alors que la macrostructure exprime le thème général du texte (topic of discourse).

Selon Kintsch et van Dijk (1978), la structure de surface d’un texte est interprétée comme un ensemble de propositions qui peuvent être considérée comme des unités d’informations discursives permettant de quantifier le contenu sémantique du texte. Une proposition renvoie à un état, un événement ou une action et se compose d'un prédicat et d'un ou plusieurs arguments. Chaque argument possède un rôle fonctionnel d'agent, d'objet ou de lieu et les prédicats sont des concepts de relation (conjonctions) ou de propriété (verbes, adjectifs). Par exemple, la phrase ‘« Jean accueille les clients ’» sera exprimée par le prédicat Accueillir et par les deux arguments a1 : Jean et a2 : Client. Les propositions de la base de texte sont organisées de façon hiérarchique et reliées entre elles par le critère de chevauchement d'arguments. Quand toutes les propositions du réseau sont connectées, la base de texte est cohérente. Ainsi, selon Kintsch et van Dijk (1978), la structure sémantique est de nature propositionnelle et se construit sur la base de la cohérence référentielle.