Un ouvrage de référence dû à des « simulateurs » en recherche opérationnelle

Enfin, la référence qui est faite ici à la fin du passage sus-cité est très significative. Il faut en dire quelques mots. Remarquons d’abord que ce sont bien les physiciens de la faculté d’Abidjan (Marchand et Lapasset), que de Reffye rencontrait souvent, ceux mêmes qui l’avaient conseillé dans l’achat de matériel, qui l’ont également initié à la simulation par ordinateur. Ce sont eux qui l’ont incité à travailler à partir du livre de Naylor et Balintfy 1574 . Les recherches de de Reffye ont pu ainsi bénéficier de conseils prodigués par des physiciens eux aussi relativement exilés des centres de recherches majeurs en leur domaine.

L’ouvrage Computer Simulation Techniques esten effet un des premiers manuels assez complets de techniques de simulation mais dont les auteurs ont une origine principalement dans l’économie, la technométrie 1575 , le management ou la recherche opérationnelle. Lors de la parution de cet ouvrage fondateur, Thomas H. Naylor est professeur associé d’économie à l’université de Duke et Joseph L. Balintfy est professeur associé de recherche opérationnelle à l’université de Tulane. Les deux autres co-auteurs ne sont pas non plus des chercheurs dans les sciences de la nature : Donald S. Burdiock est assistant de mathématique à l’université de Duke et Kong Chu est professeur associé de management industriel à Georgia-Tech (Georgia Institute of Technology). Certes, cet ouvrage n’est pas le premier sur le sujet 1576 . Mais il présente un panorama complet des techniques élémentaires de simulation numérique sur ordinateur (appelé digital computer par les auteurs). De plus, dans un premier chapitre, il exprime pour la première fois une réelle réflexion sur les différents usages épistémologiques de la simulation numérique : en exposant différentes nuances, les auteurs en trouvent 15 en tout.

Mais l’une des nouveautés majeures de cet ouvrage est qu’il présente la simulation numérique comme une nouvelle pratique scientifique à part entière, à côté des méthodes analytiques ou spéculatives traditionnelles, et qu’il développe ainsi quelques arguments d’ordre épistémologique. Pour ce faire, les auteurs ont d’abord recours à une philosophie des sciences positiviste, assez répandue à cette époque dans les pays anglo-saxons, celle de Hans Reichenbach. Selon cette épistémologie, le travail scientifique procèderait en quatre étapes : l’observation, la formulation d’hypothèses explicatives et prédictives sous la forme de modèles mathématiques, le traitement de ces modèles (résolutions logiques, calculs…) pour en obtenir des prédictions, enfin la constitution d’expérimentations pour tester la validité des modèles 1577 . Les auteurs se demandent donc à quel niveau la simulation numérique peut bien apporter son soutien. Leur réponse est surprenante : à tous les niveaux, affirment-ils. Ainsi, et en substance, la simulation servirait notamment à pallier le défaut de données lorsqu’elles sont inaccessibles, que ce soient les données servant, en amont du travail scientifique, à l’induction 1578 , c’est-à-dire dans le processus de création d’une hypothèse théorique ou que ce soient les données servant, en aval, à la vérification de cette hypothèse théorique et de ses prédictions. Elle servirait également à pallier le défaut d’une expression mathématique du modèle par équations classiques ou bien encore l’absence d’une résolution mathématique analytique du modèle mathématique obtenu, quand bien même il serait formulable par des équations générales classiques 1579 . Ainsi, pour les auteurs de cet ouvrage, dès lors que la simulation numérique peut jouer un rôle à chaque étape du travail scientifique, il est incontestable qu’elle peut entre autres servir à « vérifier des solutions analytiques » 1580 , c’est-à-dire se substituer en quelque sorte à la quatrième étape du travail scientifique, celle de la vérification empirique.

La génération de nombres pseudo-aléatoires et la méthode de la transformation inverse
Afin de simuler le tirage au sort d’événements successifs obéissant à une loi de probabilité donnée, il fallait d’abord disposer de nombres aléatoires. Or, il existe quatre sources possibles de nombres aléatoires : 1- les méthodes manuelles (lancers de pièces, de dés, roulettes…) ; 2- les tables numériques publiées de séquences aléatoires comme celle de la RAND Corporation 1582 , ces tables ayant été auparavant établies par un travail mettant en œuvre une des trois autres méthodes ; 3- les méthodes des calculateurs analogiques (fondées sur des processus physiques aléatoires comme le comportement d’un courant électrique) ; 4-les méthodes des calculateurs numériques. Les méthodes 1 et 3 peuvent donner l’impression de fournir des nombres aléatoires « vrais » mais elles présentent l’énorme inconvénient d’interdire la reproduction de la séquence aléatoire, ce qui est nécessaire pour la vérification des calculs, l’emploi de tests statistiques a posteriori, etc. La méthode 2 est très lente et ne peut pas être implémentée dans un calculateur numérique sans que lui soit communiqué ce gros désavantage puisqu’il faut stocker la séquence intégralement dans une mémoire (à cartes ou sur bandes magnétiques à l’époque, donc à accès très lents). Au milieu des années 1950, sous l’impulsion des premiers travaux de von Neumann en ce sens, puis de ceux d’un mathématicien de Berkeley, Derrick H. Lehmer, les méthodes purement numériques de génération (par récurrence) sont donc privilégiées. Ainsi, au début des années 1960, presque tous les calculateurs numériques disposent, dans leur code, d’une instruction (souvent RANDOM ou RND) qui leur permet d’extraire des nombres aléatoires par telle ou telle « variante des méthodes congruentielles de Lehmer » 1583 . Le plus souvent, cette instruction met à disposition une loi de probabilité uniforme sur un intervalle quelconque de nombres entiers. C’est-à-dire que, du point de vue des tests statistiques, chaque nombre y est proposé avec une même probabilité.

Dans l’article de 1977 publié par les quatre chercheurs de l’IFCC, la méthode de génération de nombres pseudo-aléatoires (voir encadré) est textuellement reprise de l’ouvrage de Balintfy et Naylor. De manière très frappante, les notations elles-mêmes sont conservées. Comme il le fit dans le premier article de 1976, de Reffye propose ensuite un organigramme témoignant du traitement successif et imbriqué des modèles. Mais à la différence des deux programmes de 1976, celui-ci présente une simulation nettement aléatoire puisque c’est l’approche par la reconstitution des événements successifs dans leur caractère aléatoire même (et non dans une fonction temporelle certaine d’apparition) qui est choisie. Les auteurs résument eux-mêmes la séquence de l’organigramme :

‘« Dans un premier temps, on propose à l’aide de la loi des passages efficaces des nombres représentant les dépôts des paquets de grains de pollen suivant leurs fréquences naturelles.’ ‘Dans un deuxième temps, ces nombres sont introduits dans une boucle où l’on choisit les amas de grains de pollen suivant leur distribution naturelle de fréquence. Lorsque la boucle est terminée, on a la somme totale des grains de pollen apportés sur le style. » 1584

Après le tirage d’un premier nombre aléatoire, la première étape de programme détermine donc aléatoirement le nombre total de passages efficaces qui vont affecter le style. Ensuite le programme entre dans une boucle : pour chacun de ces passages efficaces, le programme détermine aléatoirement (donc après tirage d’un deuxième nombre aléatoire) le nombre de grains qu’il y a dans l’amas apporté par ce passage efficace. À la fin de la boucle, le programme somme tous les grains apportés par tous les passages efficaces et donne le résultat.

Notes
1574.

Dans un échange personnel de courrier électronique (du 6 juin 2003), de Reffye nous a confirmé que c’était bien sous l’instigation de ces physiciens qu’il avait commandé et acheté cet ouvrage autrement non accessible à Bingerville.

1575.

Depuis 1959, il existe une revue appelée Technometrics, publiée par l’American Statistical Association, etqui s’attache à présenter les méthodes statistiques appliquées aux sciences physiques, chimiques et de l’ingénieur. Le choix de ce néologisme a été clairement inspiré par le terme biometrics issu pour sa part du cercle des biométriciens anglais du tournant du siècle jusqu’à R.A Fisher. La revue Biometrics de la Société Internationale de Biométrie existe pour sa part depuis 1944.

1576.

On pourrait citer des ouvrages antérieurs qui sont patiemment répertoriés par [Naylor, T. H., Balintfy, J. L., Burdiock, D. S. et Chu, K., 1966] : par exemple l’article de Guy Orcutt, « Simulation of Economic System », de 1960, l’ouvrage de Charles P. Bonini de 1963 : Simulation of Information and Decision Systems in the Firm, celui de K. D. Tocher, de 1963 également : The Art of Simulation, ou encore celui de J. M. Hammersley et D. C. Handscomb de 1964 : Monte Carlo Methods. Il faudrait également rappeler que la revue Operations Research existe alors depuis 1952 et qu’elle répercute régulièrement les travaux plus fondamentaux des statisticiens ou de physiciens qui sont utilisateurs de la méthode de Monte-Carlo depuis 1945. Mais l’ouvrage de 1966 a ceci de marquant qu’il constitue une première synthèse raisonnée des différents usages de la simulation et des différentes techniques de mise en œuvre de simulations dans les domaines économiques ou industriels. Ces mises en œuvre offrent également l’avantage d’être présentées et structurées en référence constante avec un langage de programmation déjà devenu un standard : le FORTRAN. Enfin, les différents langages de simulation déjà disponibles à l’époque sont inventoriés et comparés.

1577.

Nous résumons ici l’argument de la page 5 de [Naylor, T. H., Balintfy, J. L., Burdiock, D. S. et Chu, K., 1966].

1578.

Dans le cadre d’un processus de création d’hypothèse de type baconien. Ce processus est totalement assumé comme tel par le philosophe Hans Reichenbach ([Reichenbach, H., 1951], pp. 25 et 35) que les auteurs citent à leur tour longuement, [Naylor, T. H., Balintfy, J. L., Burdiock, D. S. et Chu, K., 1966], pp. 4-5.

1579.

La précision du propos épistémologique des auteurs s’épuise pourtant là. Et ils ne lèvent aucunement dans le détail le paradoxe qu’il y a à parler du caractère empirique des résultats d’une simulation. Il est vrai qu’une approche positiviste et empiriste globale les dispense, en un sens, de se poser la question, dès lors que ce qui est défini comme empirique est seulement ce qui prête globalement à deux types d’attitudes intellectuelles : soit à une induction, soit à un test de prédiction. Dans une perspective positiviste, ces deux attitudes intellectuelles du scientifique se retrouvent en effet aussi bien dans le rapport à l’empirie effective que face aux résultats de simulation sans qu’il y ait donc lieu de distinguer dans le détail ces deux rapports. Il s’agit là d’une position du problème proche de celle que Peter Galison nommera « épistémique ». C’est une position principalement attentive aux moyens et aux pratiques de traitements des résultats simulés : « stabilité, recherche d’erreur, réduction de variance, répétitivité », [Galison, P., 1996], pp. 143-144. Dans cette perspective, les identifications avec l’expérimentation réelle sont en effet plus aisées car paraissant de fait plus évidentes.

1580.

[Naylor, T. H., Balintfy, J. L., Burdiock, D. S. et Chu, K., 1966], p. 9.

1581.

Pour cet encadré, nous nous sommes inspiré du chapitre 3 de [Naylor, T. H., Balintfy, J. L., Burdiock, D. S. et Chu, K., 1966], pp. 43-67.

1582.

En 1955, la RAND Corporation a publié aux éditions The Free Press, (Glencoe, Illinois) : A Million Random Digits with 100,000 Normal Deviates.

1583.

[Naylor, T. H., Balintfy, J. L., Burdiock, D. S. et Chu, K., 1966], p. 46. En 1946, von Neumann et Metropolis avaient introduit la méthode dite du « milieu du carré » (mid-square method) qui consistait à prendre le carré du nombre aléatoire précédent et à ne conserver que les chiffres du milieu pour le nombre aléatoire suivant. Mais, en 1951, cette méthode avait été critiquée par le mathématicien américain spécialiste en analyse numérique G. E. Forsythe (qui, après avoir rejoint l’Université de Stanford en 1957, allait devenir le fondateur du département de Computer Science en 1965 et allait y former des générations d’informaticiens théoriciens comme Cleve Moler ou Donald Knuth) pour sa lenteur et pour ses qualités statistiques médiocres au regard des tests. Cette séquence pseudo-aléatoire ne pouvait donc totalement remplacer le recours aux séquences de nombres aléatoires tabulées et publiées. Signalons qu’une séquence pseudo-aléatoire est une séquence construite par une méthode mathématique déterministe mais dont les propriétés statistiques sont satisfaisantes. Pour l’usage que l’on en fait, on peut montrer que la réussite à ce genre de tests suffit dans la plupart des cas. Entre-temps, en 1930, le mathématicien américain Derrick H. Lehmer avait soutenu à l’Université Brown une thèse remarquée sur des fonctions de Lucas (primitivement introduites par le mathématicien français Edouard Lucas (1848-1891) et décrivant des séquences de nombres entiers à récurrence linaire, c’est-à-dire dont le kième nombre est calculé arithmétiquement à partir des (k-1)ièmes nombres précédents, comme la « suite de Fibonacci ») et pouvant servir à des tests de primarité (propriété des nombres dits « premiers » de n’être pas divisibles par d’autres nombres que 1 et eux-mêmes). Par la suite, entre 1949 et 1951, alors qu’il est devenu membre du Département de Mathématiques de Berkeley, Lehmer propose une série de méthodes de génération de nombres pseudo-aléatoires par congruence. Ce sont des méthodes de génération arithmétique qui associent une récurrence linéaire à un calcul de congruence de façon à ce que le nombre trouvé reste toujours dans l’intervalle [0, m-1], m étant l’entier qui exprime la valeur module. Le nombre suivant est donc calculé comme étant le reste de la division entière par le module du résultat de la récurrence linéaire auparavant effectuée sur le ou les nombres pseudo-aléatoires précédents (que ce soit une récurrence linéaire additive, multiplicative ou mixte). Cette méthode l’a finalement emporté parce que ses avantages sont au moins au nombre de deux : technologique d’abord, mathématique ensuite. Technologique parce que si l’on s’arrange bien, dès lors que l’on a affaire à un ordinateur numérique, qu’il soit décimal ou binaire, les divisions peuvent être réduites à un simple retrait ou à un décalage de bits dans le codage des nombres, ce qui assure une rapidité de traitement quasi-optimale. Mathématique, parce qu’il se trouve que ce mode de génération inspiré des fonctions de Lucas se prête bien plus facilement à l’évaluation par les tests statistiques que la méthode du « milieu du carré » par exemple. Pour les informations sur la carrière de D. H. Lehmer, nous avons notamment consulté le site à vocation historique de l’Université de Berkeley, [Lehmer, D. H., 2001].

1584.

[Parvais, J.-P., Reffye (de), Ph. et Lucas, P., 1977], p. 259.