4. Résultats

La majorité des études de corpus (contrairement à la linguistique computationnelle) ne réalise pas de test statistique pour évaluer la différence dans les préférences d’attachement ; seules les fréquences moyennes d’occurrence sont répertoriées (Baltazart & Kister, 2000 ; Desmet, Brysbaert et al., 2002 ; Desmet et al., 2006 ; Gibson & Schütze, 1999 ; Kister, 1999, 2002), mais on peut noter toutefois que Spivey-Knowlton et Sedivy (1995) font une analyse de χ² pour calculer une interaction dans le cas d’ambiguïtés d’attachement de groupes prépositionnels. Étant donné qu’il y a souvent plus de deux modalités pour les facteurs observés, une mesure de χ², est impossible. Une analyse de la variance ne peut non plus être réalisées puisqu’il s’agit de variables catégorielles et que seules des variables continues peuvent être testées.

Je propose une analyse des données quelque peu différente des études de corpus que l’on peut retrouver dans la littérature, puisque j’étaye la présentation des fréquences d’attachement d’une analyse statistique avec les modèles linéaires mixtes (Baayen, à paraître ; D. M. Bates & DebRoy, 2004 ; Harville & Mee, 1984 ; Henderson, 1975). Ils permettent d’évaluer la contribution statistiquement significative de ces facteurs sur les attachements de propositions relatives et sont adaptés à la fois pour des variables dépendantes continues et catégorielles.

Un modèle linéaire mixte est une combinaison d’effets fixes, les prédicteurs, et d’effets aléatoires, ici les références des textes d’où sont issues les phrases du corpus. La procédure consiste à adapter les paramètres du modèle pour obtenir un ajustement optimal de ces derniers et expliquer les données, en se basant sur le maximum de vraisemblance. Cette analyse est réalisée à l’aide du logiciel R qui utilise l’approximation de Laplace pour maximiser le log de vraisemblance.

La procédure d’analyse est la suivante (Demberg & Keller, à paraître ; Jaeger, 2008) : tout d’abord, en plus de la variable dépendante (l’attachement, à N1 ou à N2) et de la variable aléatoire (la référence de texte), les prédicteurs sont ajoutés au modèle, ainsi que toutes les doubles interactions. Les prédicteurs sont : le Type de relative (les qui, qui et à qui, et les lequel 30 , lequel et auquel), la Fonction du relativisé (sujet ou OI), la longueur de la relative, la présence d’un modifieur de N1 ou de N2, l’Animation (animé, non-animé), ainsi que la Fonction syntaxique de N1 (sujet, objet direct, « OI et obliques » et «  sans fonction »). à chaque pas de l’analyse, les résultats renvoient une liste des effets fixes (effets principaux et interactions) auxquels sont associées une valeur de z et une valeur de p. L’interaction la moins significative est retirée du modèle qui est à nouveau testé. La procédure est incrémentale et le modèle le plus vraisemblant, celui qui explique le mieux les données, est celui où il n’y a plus que des effets significatifs, pour les effets principaux et les interactions. Les effets principaux des prédicteurs où la valeur de z est non significative ne sont conservés que si leur interaction avec un autre prédicteur est significative.

Trois modèles sont réalisés selon cette procédure : le premier traite toutes les propositions relatives non restrictives, les deuxième et troisième modèles comparent les propositions relatives sujet d’un côté (qui, lequel) et OI de l’autre (à qui, auquel). Le premier modèle, le modèle global, fournit des informations sur les préférences d’attachement en général, ce qui procure une évaluation de l’Hypothèse 2 et des différents facteurs indépendamment de la forme du relativiseur. Les interactions de la Forme du relativiseur avec les autres facteurs est néanmoins intéressante. On verra qu’il est important de séparer les relatives sujet des relatives OI, parce que les préférences d’attachement diffèrent, comme c’est le cas dans l’étude de questionnaires. Tous les prédicteurs (énumérés plus haut) et leurs interactions doubles sont introduits dans la première itération des trois modèles. La variable dépendante est l’attachement, à N1 ou à N2.

Un quatrième modèle est généré, et ne prend en compte que les relatives OI dont le site d’attachement est animé (relative OI – animé). Comme les données sont plus réduites, il est impossible d’utiliser la procédure décrite plus haut pour estimer le meilleur modèle. En fait, il est possible d’aboutir au meilleur modèle en utilisant la procédure inverse, en ajoutant incrémentalement les prédicteurs, en ne conservant que ceux qui sont significatifs. Cette méthode est couramment utilisée pour les régressions classiques.

Notes
30.

Toutes les déclinaisons de lequel et auquel sont bien sûr prises en compte.