Le minimax et la rationalité

La rationalité de base de la théorie des jeux (Games), est une règle de maximisation du profit individuel. Les joueurs doivent trouver une stratégie qui leur garantisse une utilité minimale dans toutes les circonstances. Dans des cas simples, il existe deux joueurs antagonistes qui ne communiquent pas, qui minimisent leur risque et qui supposent que l'opposant se comporte d'une façon rationnelle (Daniel Schneider, 1994) 768 . Le jeu à somme nulle, minimax, est un jeu à deux personnes : le joueur A et le joueur B, c'est-à-dire, ce que l'un perd, l'autre le gagne. Chaque joueur possède deux stratégies (A1, A2 pour le premier et B1, B2, pour le deuxième). La matrice montre les quatre résultats possibles résultant du choix de ces stratégies. Le joueur A (ligne1), choisit une stratégie qui lui permet de maximiser son gain maximal (A1). Par conséquent, il choisit la deuxième ligne (A2), qui lui assure un gain minimal (8), (tableau 8)

Tableau 8. Minimiser les pertes, Maximiser les gains.
Tableau 8. Minimiser les pertes, Maximiser les gains.

Le joueur B choisit également la stratégie B2 pour les mêmes raisons (il le ferait même s'il pensait que A était irrationnel). Ce jeu possède un équilibre stable {A2, B2; (1/-1)} et il est déterministe. Dans ce type de jeu, A et B vont toujours choisir une stratégie qui contient un (S) “saddle-point’’ si, et seulement si, ils sont rationnels. Il y a des jeux à rationalités multiples ou paradoxales tels qu'on les retrouve dans le dilemme du prisonnier. Ce jeu relativise l'importance des règles de maximisation individuelle du profit chères à certaines théories de la décision rationnelle. Les jeux de conflit et de coopération tiennent une place très importante dans la littérature en science politique. La science politique utilise souvent ces jeux pour décrire d'une façon formelle des situations de conflit et de coopération ou, comme le remarque A. Rappoport (1966, p. 214) 769 , pour mettre en évidence le squelette d'une situation. Les exemples les plus populaires montrent que la maximisation du profit individuel à court terme peut conduire à des désastres à court ou à long terme. Le dilemme du prisonnier est le plus connu de ces jeux. Il ne sert pas seulement d'exemple d'introduction à la théorie des jeux, mais également de cadre à des expériences psycho-sociologiques très intéressantes. Si A et B coopèrent dans ce jeu, les deux vont être récompensés R, Reward, (gain), étant donné les circonstances. Si par contre, A ne coopère pas et que B coopère, A va gagner gros T, Temptation et B va perdre gros S, Sucker. Si les deux ne coopèrent pas, les deux vont être punis P, Punishment. (tableau 9).

Tableau 9. Coopération/non-coopération
Tableau 9. Coopération/non-coopération

Si l'on suppose (comme on le fait en règle générale pour ces jeux simples), que A et B jouent une seule fois, qu'ils ne peuvent pas communiquer et qu'ils n'ont pas les moyens de s'assurer de leur coopération, le choix des joueurs doit se faire dans l'incertitude. Ils ne contrôlent pas toutes les variables de la décision. Si l'on applique maintenant la stratégie maximin ( 770 ), c'est-à-dire le principe selon lequel chaque joueur doit maximiser son gain minimal (éviter d'être le S, Sucker, c’est-à-dire perdre gros), on arrive au P, et donc à la punition. En effet, la stratégie maximin est N, non-coopération pour les deux joueurs. On dit qu'elle est dominante parce qu'elle est choisie par le joueur rationnel. Nos deux joueurs arrivent donc à un résultat qui n'est pas optimal pour les deux. En situation (P,P) les deux sont dans une situation moins bonne qu'en (R,R) où les deux bénéficient de leur coopération mutuelle. Toutefois, alors que le résultat (P,P) est stable, ce n'est pas le cas pour (R,R) qui donne naissance au dilemme du prisonnier. Une stratégie optimale selon laquelle la rationalité individuelle ne garantit donc pas forcément un bon résultat.

Notes
768.

Daniel Schneider, Modélisation de la démarche du décideur politique dans la perspective de l'intelligence artificielle, Thèse de doctorat, Université de Genève, Faculté des Sciences économiques et sociales, Département de science politique, septembre 1994.

769.

A. Rappoport, Two-Person Game Theory, The Essential Ideas, Ann Arbor, Michigan, University of Michigan Press, 1966.

770.

Cette règle “pessimiste” de décision (partant du principe qu'il faut toujours s'attendre au pire) est plus fréquemment appelée “minimax”: chercher un minimal maximum ; ou un “maximin” maximiser le minimum.