Un formalisme peut en invalider un autre

De Reffye reprend ensuite la formulation de sa loi de répartition des grains sur les styles. Mais il insiste cette fois-ci nettement sur la forme analytique de cette loi qu’il rapporte à la formulation de la « loi de Pareto », usuelle en économie et en sociologie des inégalités. Car, entre-temps, il a continué de s’instruire en statistiques descriptives, notamment auprès des volumineux manuels du démographe et statisticien de l’INED Gérard Calot 1596 . C’est dans une librairie universitaire d’Abidjan qu’il avait fait auparavant l’acquisition de ces ouvrages suffisamment classiques pour être diffusés assez largement 1597 .

La loi de Pareto
La loi de Pareto Nous avons repris ici les notations de [Reffye (de), Ph., Parvais, J.-P., Mossu, G. et Lucas, P., 1978], p. 255.

Grâce aux relevés empiriques dont ils disposent, de Reffye et ses collègues trouvent donc à chiffrer les inconnues a et x0 de la loi de Pareto. Ils procèdent par passage à la fonction cumulative F(x), qu’ils linéarisent ensuite par le logarithme et à laquelle ils appliquent la méthode classique de régression suivant les moindres carrés. Or, l’intérêt que représente cet ajustement à une loi mathématique exprimable analytiquement est majeur pour de Reffye. En effet, d’une part l’ajustement de ce modèle sur les mesures en champ est excellent, puisque l’on obtient un coefficient de corrélation qui se situe entre 0,95 et 0,99 1599 . D’autre part, les valeurs que l’on obtient pour le coefficient de Pareto ‘a’ donnent pleinement raison a posteriori au choix qui a été fait d’abandonner les méthodes d’analyse biométrique par la moyenne et la variance :

‘« La moyenne n’existe donc que si a est supérieur à 1, et la variance n’existe que si a est supérieur à 2. Dans les conditions de pollinisation de Bingerville et de Divo, a est toujours inférieur à 2 ; l’étude de la pollinisation moyenne des arbres et leur comparaison d’après ce critère n’a donc pas de sens. » 1600

Par conséquent, il serait aberrant de procéder ici à une analyse de variance. Plus loin, de Reffye montre que le paramètre ‘a’ est même plutôt situé entre 0,42 et 0,71. C’est-à-dire qu’il est inférieur à 1. Ce qui indique qu’il n’y a même pas de moyenne ! En effet, en appliquant la formule analytique et exacte de la moyenne valable pour une loi de Pareto (voir encadré), on trouverait une valeur négative alors que la valeur de la distribution f(x) est évidemment toujours positive. Ce qui est manifestement aberrant.

C’est la notion même de moyenne mathématique qui n’a donc pas de sens dans ce cas de figure. Il n’y a pas là de miracle, bien sûr. Cela est dû au fait que, dans le cas empirique qui nous préoccupe, et avec les valeurs de ‘a’ que l’on trouve, la distribution diminue très rapidement lorsque x croît. Il n’y avait donc pas de sens à aborder ce problème avec l’outil mathématique de la moyenne statistique ou de la variance. Car, si l’on fait confiance au modèle mathématique ajusté, la moyenne n’est mathématiquement pas définie ; et les chercheurs précédents ont eu tort de la supposer définie par principe. Certes ce modèle de Pareto n’est ajusté que sur une partie de la courbe. Mais c’est précisément la partie qui est à prendre en compte pour la question posée : il s’agit des cas rares où x est grand, c’est-à-dire où il y a suffisamment de grains de pollen pour qu’il y ait ensuite une éventuelle fructification. On est donc là en présence d’un phénomène certes mesurable mais dont on a désormais compris qu’il serait très malvenu de recourir à la formalisation de la moyenne pour le représenter et l’expliquer. Il s’agit d’un cas assez peu fréquent où le recours à un formalisme de modélisation permet de disqualifier nettement le recours à un autre type de formalisme.

Sans vouloir prétendre l’expliquer tout à fait, nous est-il possible de saisir sur ce cas particulier le sens de l’incohérence mathématique qui se produit là ? Si la réponse existe, elle se trouve dans ce que de Reffye et ses collègues font précisément lorsqu’ils tentent de convertir le formalisme de la loi de Pareto dans le formalisme qui fournit l’expression de la moyenne d’une distribution de densité donnée. C’est dans la tentative de conversion d’un formalisme en un autre que l’on est conduit à une distorsion manifeste signifiant le rappel à l’ordre d’un certain nombre d’hypothèses mathématiques implicites, d’habitude oubliées, mais qui sont nécessaires pour l’utilisation légitime du second formalisme. La tentative de convertir le premier formalisme en le second a ainsi imposé des restrictions axiomatiques que le premier formalisme ne s’impose pas de lui-même. C’est cette tentative avortée qui fait bien comprendre le nouveau formalisme se distingue avantageusement de l’ancien. Encore faut-il que ce formalisme disqualifiant soit considéré comme efficace par ailleurs. Ce qui est le cas de par la précision des ajustements aux données de la loi de Pareto. Ainsi il se peut qu’un formalisme disqualifie l’usage d’un autre formalisme.

Notes
1596.

À la fin des années 1960, Gérard Calot était Administrateur au service de la démographie de l’INSEE ainsi que professeur de statistiques et probabilités à l’ENSAE (Ecole Nationale Supérieure de la Statistique et de l’Administration Economique). Comme il se doit, dans son fameux Cours de probabilités comme dans son Cours de statistiques descriptives, respectivement publiés en 1967 et 1969 (et que de Reffye connaît et cite dans l’article de 1978), son approche et ses exemples sont nettement inspirés de problématiques économiques. En, 1972, Calot deviendra directeur de l’INED (Institut National d’Etudes Démographiques).

1597.

Cette information nous a été donnée lors d’un entretien personnel avec Philippe de Reffye que nous avons eu par courrier électronique le 6 juin 2003.

1598.

Nous avons repris ici les notations de [Reffye (de), Ph., Parvais, J.-P., Mossu, G. et Lucas, P., 1978], p. 255.

1599.

[Reffye (de), Ph., Parvais, J.-P., Mossu, G. et Lucas, P., 1978], p. 254.

1600.

[Reffye (de), Ph., Parvais, J.-P., Mossu, G. et Lucas, P., 1978], p. 255.