Le logiciel ‘ Lexico ’ est un outil de statistiques textuelles grâce auquel nous pouvons isoler chacun des termes présents dans notre corpus. Nous sélectionnons le corpus principal et un corpus secondaire constitué des portraits des candidats dans la presse quotidienne nationale. Deux raisons justifient cette sélection. Les autres corpus, constitués de récits à propos d’un évènement, se focalisent sur certaines actions narrativisées ; ils déploient alors des figures sémiques dont la sur-représentabilité influence les termes trouvés. Or nous souhaitons obtenir un ensemble de termes le plus vaste possible sans que l’hétérogénéité ne soit contrainte. La seconde constitue un critère de faisabilité. La presse quotidienne nationale est archivée par des bases de données, telles que ‘ Factiva ’ ou ‘ Europresse ’, il est alors facile d’obtenir les articles en version .txt, format compatible avec le logiciel ‘ Lexico ’. A l’inverse, la presse people, comme genre peu légitime dans l’espace scientifique ou l’espace public français, n’est trouvable qu’en version papier ou version image522. Afin de pouvoir exporter les récits issus de la presse people dans le logiciel ‘ Lexico ’, nous avons numérisé chacun des titres, puis utilisé un logiciel de reconnaissance textuelle afin de convertir ces images en version texte. Pourtant, la structure éclatée et le nombre important d’images, constituant souvent le fond de l’énoncé, ont rendu le travail difficile, souvent impossible, nous obligeant à retaper les textes523. Cette opérationnalisation du corpus concerne notre corpus principal de presse people composé de 71 numéros différents et 96 articles, tous titres confondus. Ces articles souvent de plusieurs pages déploient ainsi notre corpus principal sur 377 pages de presse people. Cette opérationnalisation concerne, par ailleurs, les portraits de la presse quotidienne nationale524.
Nous obtenons ainsi 388 pages de texte525. Chacun des récits est séparé des autres à partir de deux critères : titre de presse et numéro526. Par ailleurs, le logiciel ‘ Lexico ’ différenciant un même terme selon s’il est écrit avec une majuscule ou pas, nous avons supprimé toutes les majuscules. L’importation des récits sous ce format dans le logiciel ‘ Lexico ’ nous amena, par la suite, à identifier les délimitateurs permettant de séparer les termes entre eux527.
| . , : ; ! ? / _ - \ " ' ’ ( ) [ ] { } § $ % |
Le logiciel nous a proposé 15287 formes différentes dans lesquelles nous avons supprimé tous les chiffres, délimitateurs et critères d’identification (date, titre, numéro). Nous obtenons, alors 14825 formes différentes. Le logiciel permet de retrouver le contexte de chacune des occurrences de chacune de ces formes, comme le montre cette capture d’écran où apparait le contexte des occurrences des formes : famille, familles, familiales, familial, familiale528, c'est-à-dire toutes les phrases de notre corpus où apparaissent ce terme et ses dérivés.
Nous observons le contexte de chacune des formes trouvées dans notre corpus pour voir si cette forme est prise dans une base classématique révélatrice de la quiddité de notre objet d’étude. L’identification à partir de ces trois bases classématiques n’est pas valable pour tous les termes ou formes trouvées dans notre corpus. Nous ne sélectionnons que ceux qui relèvent de la nature d’un monde ou d’un mélange entre les mondes. L’effacement de certains termes peut ainsi relever d’une neutralité par rapport à notre intérêt ou d’une faible manifestation dans le corpus qui empêche leur classification. Une telle observation permet ainsi la construction d’un répertoire au prisme des trois mondes. Ce répertoire, figurant en annexes529, est constitué de 1130 groupes de formes. Notre intérêt est moins de considérer la définition des termes que leur manifestation dans les récits de notre corpus. L’identification de la base classématique des termes n’est valable qu’au creux des récits observés, à partir du contexte de mise en discours. Ainsi, certaines classifications peuvent apparaître surprenantes si l’on considère le terme détaché de tout contexte, mais c’est leur manifestation dans notre corpus qui autorise l’appartenance identifiée. C’est le cas des couleurs qui sont moins saisies comme telles que comme des symboles d’un parti politique, impliquant alors leur qualification à partir de la base classématique /monde civique/530.
Le répertoire ainsi élaboré est proposé sous la forme d’un dictionnaire ; les termes étant classés par ordre alphabétique. A côté du terme se trouve un code permettant de considérer sa classification, puis suivent alors un ou plusieurs exemples de manifestation de ce terme dans
notre corpus. Dans le répertoire, nous ne listons pas toutes les formes possibles du terme et nous regroupons généralement ses différentes formes : son féminin ou masculin, son pluriel, son adjectif, son verbe, son participe passé, son adverbe, etc. En effet, les dérivés d’un terme suivent majoritairement la même logique de manifestation. Pourtant, cette majorité n’en fait pas une généralité. L’exemple du terme « famille » tient dans l’identification de deux bases classématique : c’est le cas aussi pour son pluriel. Mais lorsque nous considérons son adjectif « familial » et ses dérivés, nous observons que celui-ci n’est jamais signifié à partir de la base classématique du /monde civique/. La forme « familial » se distingue donc de celle de « famille » en ne révélant qu’une seule nature, à l’inverse de la seconde. Ces deux formes sont donc différenciées dans notre répertoire.
Le site ‘ relay.fr ’ permet d’acheter cette presse en format numérique, lisible uniquement à partir d’un logiciel de messagerie presse-livre. Ce logiciel protège le document : l’impression et la capture d’image sont les seuls moyens de transfert ou de transformation du document.
Cela était toujours le cas, lorsque le fond de l’énoncé n’était pas de couleur claire et unie, ce qui est très courant dans la mise en page de la presse people.
Les portraits s’étendent sur 70 pages en version txt. La liste des articles, classés selon les corpus, figure en Annexes. A.
En version .txt, soit sans mise en forme et en « ‘ Courrier new ’ » caractère 10. Précisons, par ailleurs, que toutes les légendes des photos ont été prises en compte.
Pour la presse quotidienne nationale, le numéro correspond à la date de parution sous forme « 070425 » (pour le 25 avril 2007).
L’espace fait partie des délimitateurs, nous le soulignons ici, celui-ci ne pouvant être représenté sous une forme de caractère.
Ces contextes peuvent être regroupés selon les titres ou les numéros. Si, plus tard, nous utiliserons cette option pour vérifier des hypothèses empiriques quant à certains titres, cette possibilité de regroupement n’a ici pas de pertinence.
Voir Annexes. B. 1. « Répertoire des mondes»
C’est aussi le cas du terme « gommer », comme nous le verrons dans les prochaines pages.