Deuxième usage : l’analyse statistique et la morphométrie

L’analyse statistique et, plus spécifiquement, la morphométrie ou morphologie statistique proposent de « mesurer » et de comparer les formes du vivant ou, plus largement, ses caractères morphologiques, dans leur évolution et dans leur répartition. Ce qui doit nous surprendre à première vue est le remarquable essor de la morphométrie dans l’après-guerre. On peut voir à cela deux raisons majeures en rapport avec notre propos. D’une part, elle bénéficie des méthodes de mathématisation descriptive développées avant-guerre par Fisher et ses successeurs dans un contexte génétique puis agronomique et que nous avons partiellement rappelées. Surtout, elle profite des raffinements conceptuels apportés entre-temps par le statisticien M. S. Bartlett avec sa proposition d’une analyse multivariée (1947) 715 . D’autre part, elle bénéficie de la mise à disposition progressive des calculateurs numériques que lui sont les computers. Et nous allons ici nous interroger un peu plus avant pour comprendre cette étonnante pré-adaptation entre une mathématisation descriptive et une machine conçue au départ pour calculer de façon arithmétique.

Dans un premier temps donc, un peu avant que les ordinateurs ne soient à disposition, c’est-à-dire à partir de la fin des années 1940, le développement systématique de l’analyse multivariée donne un nouveau souffle à cette approche dans la mesure où des outils conceptuels plus complexes peuvent arracher la taxonomie descriptive de sa dépendance aux choix subjectifs des caractères distinctifs entre genres, espèces et variétés 716 . Une telle analyse fondée sur la mesure des caractères morphologiques, et donc sur leur quantification, se présente directement à l’époque comme une prolongation mathématisée de l’anatomie comparée et de la paléontologie quantitative telles qu’elles existaient déjà dans les années 1920 et 1930 717 . Fisher lui-même, dans un article de 1936 718 , avait indiqué les possibles usages taxonomiques de son approche statistique de l’expérience. La morphométrie procède en effet à des caractérisations réputées plus objectives dans la mesure où elle tâche de quantifier les dénominations qualitatives : elle remplace, quand elle le peut, des distinctions qualitatives par des différenciations quantitatives ou, à tout le moins, par des différenciations ordonnées en des échelles factorielles. Dans tous les cas, il s’agit donc soit d’une énumération, soit d’une mesure. Dans ce cadre, au cours des années 1950, le support du calcul reste essentiellement arithmétique 719 . Cette recherche d’objectivité par la mesure et par la médiation, autant que possible, d’un instrument formel qui puisse neutraliser les projections subjectives de l’observateur était déjà le fait de la psychologie expérimentale du tournant du siècle. Mais c’est essentiellement le statisticien M. S. Bartlett du University College de Londres qui a travaillé au développement de l’analyse multivariée et à ses applications en morphométrie, notamment à la suite des travaux en analyse multifactorielle du psychologue américain C. Spearman 720 , mais aussi bien sûr à la suite des recherches en analyse statistique et biométrie de son collègue R. A. Fisher. Bartlett définit la statistique multivariée comme « l’étude de plusieurs variables en même temps dans le but d’augmenter soit l’efficacité de l’analyse statistique, soit la puissance de l’interprétation » 721 .

Comme dans l’analyse statistique appliquée à l’agronomie, le but du développement de ces outils conceptuels en biologie a en fait essentiellement été d’augmenter le pouvoir de discrimination entre des groupes d’individus présentant tous une collection de propriétés métriques (ou métriquement exprimables) à des degrés variables. Venant donc au départ de la biométrie eugéniste anglaise, puis de la psychométrie, ces techniques ont été très vite utilisées dans le domaine du diagnostic médical 722 . Dans la morphométrie, en particulier, il y a bien le projet de représenter quantitativement les caractères des êtres vivants à commencer par leurs formes ou plutôt par leurs caractères morphologiques. Mais, là encore, l’objectif de cette application de l’analyse multivariée à la taxonomie n’est pas du tout de représenter un individu en tant que tel mais plutôt la distance entre les individus en vue de leur discrimination : ce sont les relations entre des caractères un à un homogènes qui sont mathématiquement traitables en des termes métriques mais pas l’hétérogénéité de l’individu à lui-même, de ses parties ou de ses formes entre elles, ou de ses parties avec son organisme entier. Comme en biométrie, l’approche est donc d’emblée relationnelle, métrique et apparemment purement descriptive. La morphogenèse de l’individu n’y est pas traitée en tant que telle. S’y ajoute cependant un but précis : phylogénétique.

Avec ce but classificatoire, la morphométrie rencontre une autre tradition qui n’est plus seulement à visée descriptive mais qui cherche des représentations mathématiques en vue d’explications phylogénétiques. Il faut bien comprendre ici que ces représentations mathématiques de distances métriques entre des caractères diversement présents ne deviennent pas pour autant en elles-mêmes explicatives mais des chercheurs comme R. E. Blackith, du département de zoologie de l’Université de Melbourne, prétendent toutefois les faire directement servir à une interprétation théorique et explicative. Or, dans ce cadre-là, les avatars de la morphométrie dépendent bien sûr intégralement du grand débat amplement étudié par ailleurs 723 et qui oppose la génétique quantitative, avec son hypothèse d’une évolution graduelle, et la génétique mendélienne, avec sa théorie des mutations brusques et discontinues.

Pour le morphométricien, les mathématiques sont essentiellement une technique de mesure. L’approche logique et classificatoire reste une métrique dégénérée aux yeux de l’axiomatique implicite du biométricien. Elle ne nous oriente de toute façon nullement vers une explication selon lui. Comme elle est essentiellement inféodée aux objectifs de la taxonomie et aux problématiques phylogénétiques, la morphométrie des années 1940 et 1950 sert encore comme un outil statistique dédié à une approche plutôt phylogénétique qu’ontogénétique. De plus, comme ce sont des relations entre des formes homogènes qui sont de fait objectivées dans la mathématisation statistique et non la forme des êtres vivants, en eux-mêmes, pris séparément dans leur histoire et chacun comme un tout, la morphométrie s’est développée très aux marges d’une autre approche morphologique quantitative et qui s’est au contraire prétendue d’emblée théorique et explicative.

Ainsi, le deuxième usage de l’ordinateur qui se répand rapidement est bien évidemment celui de l’analyse de données. Car, on l’a compris, il s’agit là essentiellement de traitements de données numériques en très grand nombre. Dans ce cadre-là, puisqu’on a toujours affaire à des quantités discrètes de données, on peut comprendre que l’utilisation des calculateurs numériques n’y ait même pas été le plus souvent précédée par celle des calculateurs analogiques. Le caractère numérique du computer lui sied très bien. En revanche, il faut que les biométriciens et les morphométriciens s’adaptent très vite au calculateur numérique ; mais ils avaient déjà auparavant recours à des machines à calculer électromécaniques (arithmétiques) et les langages évolués facilitent la maîtrise de l’outil dès le début des années 1960.

Notons, pour finir sur ce point, que l’intérêt des biologistes en ce domaine recoupe clairement celui des statisticiens de l’économie et des affaires qui avaient été auparavant à l’origine des travaux de Hollerith mais aussi de la naissance d’IBM 724 . Le transfert de formalisme ne semble pas poser de question dans la mesure où l’on reconnaît les statistiques comme appartenant à une mathématique de la surface, une mathématique descriptive et non fonctionnelle ou explicative. Le choix pour le calculateur numérique peut sembler donc évident à ce moment-là dans ce que Rashevsky appelait la « biologie quantitative » : les capacités de traitement et de stockage du calculateur numérique sont inappréciables en ce qu’elles soulagent des fastidieux et répétitifs calculs numériques. Dans l’ensemble, les langages évolués comme FORTRAN 725 et ALGOL permettent d’ailleurs d’implémenter utilement et convenablement les formules de l’analyse multivariée comme les tests statistiques, puisque les mathématiques algébriques et arithmétiques ainsi que quelques fonctions transcendantes y sont prises en compte grâce à des tabulations directement mises en mémoire dans le calculateur.

Notes
715.

Son article fondateur “Multivariate Analysis” paraît dans le Journal of the Royal Statistical Society en 1947. Voir [Bartlett, M. S., 1965], p. 223.

716.

[Blackith, R. E., 1965], pp. 225-226.

717.

Voir le chapitre sur « L’anatomie comparée et la paléontologie des vertébrés » de J. Piveteau in [Taton, R., 1964, 1995], pp. 716-723.

718.

“The use of multiple measurements in taxonomic problems” paru dans les Annals of Eugenics de Londres en 1936. Voir [Bartlett, M. S., 1965], p. 223.

719.

Au début des années 1990, la morphométrie connaîtra justement une avancée majeure avec la proposition alternative d’une morphométrie géométrique. Voir l’état des lieux dressés en 2000 par Michel Baylac, morphométricien au CNRS (GDR 247), sur le site de son groupe de recherche : http://gdr-mef.univ-lyon1.fr/etat2.html.

720.

À partir de 1904, voir [Langlois, A. et Phipps, M., 1997], p. 6.

721.

[Bartlett, M. S., 1965], p. 201.

722.

[Bartlett, M. S., 1965], p. 202.

723.

Voir [David, P. et Samadi, S., 2000], pp. 289-291 et [Gayon, J., 1992], pp. 334-365.

724.

[Pratt, V., 1987, 1995], p. 164.

725.

Rappelons que le FORTRAN avait été conçu par IBM pour « traiter de manière synthétique les formules mathématiques et les expressions logiques et pour faciliter les opérations d’entrée et sortie et l’écriture des instructions de contrôle du programme », [Rammuni, G., 1989]. [Naylor, T. H., Balintfy, J. L., Burdick, D. S. and Chu, K., 1966] rappelle cette même liste du cahier des charges de FORTRAN en y ajoutant toutefois le désir de faciliter la « formulation des spécifications » [ “specification statements”]des données et variables, pp. 242-243. En conséquence de toutes ces caractéristiques, il le classe dans les General Purpose Languages.