2.3.2.2. Le codage des données.

L’analyse quantitative des informations contenues dans une base de données ne peut être efficace que si ces informations présentent une variété limitée pour éviter la dispersion des résultats. Dans la plupart des disciplines utilisant l’analyse quantitative, cette limitation est préalable à l’étude et consiste à coder les données sur les bases d’une typologie, comme par exemple les Catégories socioprofessionnelles en sociologie. En histoire cependant, cette typologie existe rarement et les informations contenues dans les archives présentent souvent une grande variété de dénominations, qui rend l’étape de codage d’autant plus délicate que l’évolution des termes employés fait partie intégrante de l’analyse historique. Le codage ne doit donc être effectué qu’après la saisie des données et il doit conserver les termes employés dans les archives pour une éventuelle analyse de leur évolution.

Bien que ce soit moins marqué sur la période contemporaine, les termes employés en cartographie, dans les textes, les documents topographiques ou les cartes elles-mêmes, ne s’inscrivent pas dans une typologie bien définie. En fonction des périodes, de la méticulosité des opérateurs, ou encore des spécifications officielles, les documents contenus dans les dossiers topographiques et les cartes elles-mêmes contiennent des informations très variables, à la fois dans leur contenu (certains éléments ne sont pas toujours indiqués) et dans le vocabulaire employé.

Dans les informations intégrées à la base de données, cette variation du vocabulaire ne posait de véritables problèmes que pour les termes désignant les techniques de levés et les fonctions assurées lors de ces levés. Les autres données provenaient soit d’un codage préalable d’informations non textuelles (représentation du relief ou du rocher, type de paysage, etc.)123, soit d’informations numériques qu’il n’était donc pas nécessaire de coder124, soit d’informations disposant d’une typologie fixe (grades militaires, numéros de coupures, etc.). Pour les techniques ou les fonctions dans les levés topographiques, j’ai donc scrupuleusement respecté les termes employés dans les archives. J’ai ensuite effectué un tri léger en regroupant les termes très proches pour lesquels il ne me semblait pas nécessaire de maintenir une distinction, mais en conservant les bases lexicales distinctes : par exemple, les termes « stéréotopographie » et « stéréophototopographie », bien que désignant la même technique, n’ont pas été regroupés pour permettre l’analyse de l’évolution des termes employés. Pour permettre des analyses plus synthétiques, chacun de ces termes a été relié aux techniques qu’il englobait, par une association plusieurs à plusieurs avec l’entité Technique (annexe 3, figure 19).

Notes
123.

Ce codage a été exécuté dans des entités distinctes dont les noms sont préfixés par « enum_ » (Annexe 3, figure 20).

124.

Même si lors des traitements statistiques certaines données numériques ont été regroupées en classes pour permettre une meilleure lisibilité des résultats, elles n’ont jamais été modifiées dans la base de données.