3. Le corpus

3. 1. Corpus original et prétraitements

Le matériel qui constitue le corpus est issu d’articles publiés dans le journal « Le Monde » de 1987 à 1996. Ce journal, dont le registre est formel, est constitué de productions écrites planifiées.

Au départ, les structures sont extraites d’une portion du corpus en choisissant les mois de janvier sur les dix années couvertes, ce qui représente environ 2 millions de mots. Cependant, comme il y avait trop peu de phrases contenant une structure « N1 de N2 » suivie d’un relativiseur autre que qui, le corpus a été augmenté à deux reprises, en incluant les mois de juillet et d’octobre.

Le corpus est dans un premier temps nettoyé pour supprimer le codage des articles ou des erreurs de ponctuation. Ensuite, le corpus est étiqueté à l’aide de TreeTagger (Schmid, 1994), qui permet après segmentation des mots du corpus d’en déterminer la catégorie et qui en calcule le lemme. La catégorie grammaticale d’un mot est déterminée à partir d’un arbre de décision binaire qui calcule la probabilité que ce mot appartienne à telle ou telle catégorie en fonction des étiquettes précédentes. Pour un mot donné, la probabilité qu’il soit un nom est importante s’il est précédé d’un adjectif, lui-même précédé d’un article. C’est la catégorie avec la plus grande probabilité qui est conservée pour la suite de l’étiquetage. Son taux de succès est de l’ordre de 96 % (Schmid, 1994).

C’est à partir des entrées lexicales étiquetées que sont extraites les catégories syntaxiques de ces entrées, à l’aide de Lexique 3 (New et al., 2001). Cette base de données comporte 135 000 mots du français auxquels sont associées leurs catégories grammaticales, utilisées ici, ainsi que d’autres informations comme le nombre de syllabes, la représentation orthographique ou phonémique. C’est avec Lexique 3 qu’un programme classe les phrases contenant les différents relativiseurs en fonction des mots précédant ou suivant les relativiseurs. Le programme sélectionne les phrases contenant qui, lequel (mais aussi laquelle, lesquels, lesquelles), à qui et auquel (avec à laquelle, auxquels et auxquelles).

Si on veut extraire de ce corpus des phrases contenant des propositions relatives, il faut distinguer les relativiseurs (qui, que, etc.) des pronoms interrogatifs (63). Aussi une liste de contraintes ou cas particuliers est entrée à la main pour faciliter la sélection des phrases cibles contenant des propositions relatives. Par exemple, pour éviter de retenir des complétives (64), le relativiseur que ne doit pas être directement précédé d’un verbe. La liste des prépositions qui peuvent précéder les relativiseurs est aussi encodée (à, pour, de…). Seules les relatives sujet (qui, lequel) et OI (à qui, auquel) sont analysées par la suite.

(63)Lequel a tiré le premier ?

(64)Le PS affirme que c’est faux.

À l’issue de l’étiquetage avec TreeTagger, un programme utilise Lexique 3 ainsi qu’une liste de contraintes pour extraire les phrases à propositions relatives. Les phrases rejetées car codées comme interrogatives, complétives, etc. sont ensuite vérifiées manuellement, afin de s’assurer de l’efficacité de l’extraction. Chaque phrase classée comme « avec relative » est vérifiée manuellement. Les phrases rejetées ne contiennent en effet pas de relatives, mais bien des interrogatives, directes ou non, ainsi que des complétives. Il y a aussi peu de phrases considérées à tort comme contenant des relatives.

Ensuite, on procède à une sélection manuelle des phrases, parmi les phrases contenant qui, lequel, à qui ou auquel, où on choisit les propositions relatives dont le site d’attachement fait partie d’un GN « N1 de N2 ». Seules les phrases où « de N2 » est un vrai génitif sont conservées pour l’analyse ultérieure. Cette sélection est réalisée pour les relativiseurs qui, lequel, à qui et auquel (et leurs pendants féminin et pluriel). Enfin, différents aspects sont encodés, manuellement.