Introduction �� la Th��orie des Jeux

La th��orie des jeux est une branche des math��matiques qui s'int��resse �� la prise de d��cision quand deux "joueurs" ou plus ont des int��r��ts en concurrence. Elle est souvent utilis��e en ��conomie ou en biologie et trouve aussi des applications dans le poker. La premi��re partie de cet article pr��sente les bases de la th��orie des jeux qui nous permettront d'aborder son application au poker dans une seconde partie.
Photo: Russell Crowe dans Un Homme d'exception, film retra?ant la vie de John Nash.
Le Dilemme du Prisonnier
L'exemple le plus connu de cette th��orie est le dilemme du prisonnier. Beaucoup d'entre vous en ont sans doute d��j�� entendu parler, nous allons ici rentrer dans les d��tails.
Quelque part, un crime est commis et la police arr��te deux suspects. La police est certaine que ces deux hommes sont impliqu��s dans le crime, mais n'ont aucune preuve. L'un des policiers a alors une id��e. Il d��cide de mettre les prisonniers dans des cellules s��par��es et leur fait la proposition suivante:
Ils ont le choix entre d��noncer leur complice et passer moins de temps en prison ou ils peuvent tous deux garder le silence.
Si aucun des prisonniers ne parle, la police n'aura aucune preuve et les deux prisonniers iront en prison 1 an pour possession d'arme. Si l'un d'eux parle et l'autre garde le silence, le mouchard sera libre et l'autre ira en prison pour 10 ans. Si les deux prisonniers se d��noncent mutuellement, alors ils iront en prison pour 8 ans (et non 10 ans, car ils auront aid�� la justice tous les deux).
Nous pouvons pr��senter ces informations sous forme de tableau :

Ce tableau s'appelle une matrice o�� nous voyons tous les r��sultats possibles pour les deux "joueurs" (les prisonniers) impliqu��s dans ce jeu. Le premier nombre est toujours le r��sultat pour le premier prisonnier (P1) et le nombre apr��s la virgule est le r��sultat pour le second prisonnier (P2). Si les deux prisonniers gardent le silence, ils iront en prison pour 1 an. Si l'un des prisonniers d��noncent son complice mais que l'autre garde le silence alors celui qui a parl�� sera libre et l'autre ira en prison pour 10 ans. S'ils parlent tous les deux, tous deux iront en prison pour 8 ans. Le meilleur r��sultat possible pour la police est que les deux prisonniers se d��noncent mutuellement, rendant les rues plus s?res pour 8 ans. Et les policiers ont de la chance. ��tant donn�� la proposition de d��part, les deux prisonniers vont toujours se d��noncer tous les deux. Comment est-ce possible ?
Imaginons que nous soyons P1. Nous sommes assis dans notre cellule, r��fl��chissant �� ce qu'il faut faire. Nous ignorons ce que fera P2 et nous n'avons aucun moyen de communiquer. Si P2 nous d��nonce, alors il est pr��f��rable pour nous de le d��noncer ��galement. Si P2, ne nous d��nonce pas, alors notre meilleur choix est aussi de le d��noncer. Dans les deux cas, peu importe ce que choisit P2, le d��noncer vous permet de r��duire le temps que vous passerez en prison.
Pour P2, la situation est exactement la m��me et il aura int��r��t �� nous d��noncer pour les m��mes raisons. Certes, P1 peut penser : "Peut-��tre que je ne devrais rien dire, si P2 fait de m��me, nous serons libres dans 1 an". Mais si P2 d��cide de parler, vous irez en prison pour 10 ans ! Avez-vous envie de prendre ce risque ? En g��n��ral, non. Aussi, �� la fin du "jeu", les deux prisonniers ��coperont de 8 ans de prisons.
Cette situation s'appelle l'��quilibre de Nash, d'apr��s le nom du c��l��bre math��maticien John Forbes Nash. Vous pouvez en apprendre plus sur lui dans le film Un Homme d'exception (titre original: A Beautiful Mind). Lorsque cet ��quilibre est atteint, aucun joueur ne peut ajuster sa strat��gie unilat��ralement pour en tirer profit. C'est exactement ce qui se passe pour nos deux prisonniers. Imaginons que nous soyons sur le point d'��quilibre de Nash, les deux prisonniers se d��noncent et vont en prison pour 8 ans. P1 peut changer sa strat��gie et garder le silence, mais il ira en prison pour 10 ans et n'aura rien gagn��. La situation est la m��me pour P2. Aucun changement unilat��ral de strat��gie ne peut profiter �� ces "joueurs".
L'��quilibre de Nash modifi�� par un nouveau joueur
Il existe des tas d'exemples possibles. Par exemple, supposons une guerre entre deux pays. Un pays peut choisir d'aller en guerre ou non. L'autre pays a le m��me choix. Si les deux pays renoncent �� se faire la guerre, ils garderont tous deux leur territoire d'origine. Si le pays A fait la guerre mais que le pays B y renonce, alors A gagnera du territoire alors que B en perdra. Si B fait la guerre mais pas le pays A, c'est B qui agrandira son territoire au d��triment de A. Si tous deux se combattent, alors tous deux subiront des pertes.
Nous pouvons pr��senter les diff��rents r��sultats possibles sous forme de matrice. Si les deux pays conservent leur territoire d'origine, le score est de 0. Un territoire suppl��mentaire donne un score de 10 et un territoire perdu un score de -10. Si les deux pays subissent chacun des pertes, leur score est de -5.

A nouveau, on constate que la meilleure option pour les deux pays est d'aller en guerre, quelque soit la d��cision de l'autre pays. Vous ��tes le pays A. Si B attaque, vous pouvez d��cider de ne pas r��agir (-10) ou de contre-attaquer (-5). La contre-attaque est ici la meilleure solution car elle r��duit vos pertes. Si B ne vous attaque pas, vous pouvez choisir la paix (0) ou la guerre (10). A nouveau, la meilleure option pour A est d'aller en guerre, peu importe le choix de B. C'est pourquoi ces deux pays vont n��cessairement entrer en guerre. C'est encore l'��quilibre de Nash.
Nous pouvons alors imaginer que l'OTAN tente de garder le monde en paix et menace les deux pays : "Si vous entrez en guerre, nous vous bombarderons jusqu'�� ce que vous retourniez �� l'age de pierre". Si l'OTAN d��cide de bombarder un pays, il subira des dommages encore plus grands. La matrice serait la suivante :

Maintenant, la situation est diff��rente pour les deux pays. Si vous ��tes le pays A, le pays B peut vous attaquer et vous aurez le choix entre la paix (-10) ou la guerre (-15). Maintenant, la paix est une meilleure option. Si le pays B choisit la paix, vous avez le choix entre la paix (0) ou la guerre (-10). Dans ce nouvel ��quilibre de Nash, la paix est le meilleur choix pour les deux pays. L'intervention de l'OTAN a modifi�� la matrice de fa?on �� favoriser la paix.
La Th��orie des jeux appliqu��e au Pair et Impair
Prenons �� pr��sent un exemple plus proche du poker. Le jeu s'appelle Pair ou Impair. Deux joueurs doivent prendre une d��cision au m��me moment. Ils disposent chacun d'une pi��ce et ils doivent d��cider de la garder ou non dans leur main. A un moment donn��, les deux joueurs doivent ouvrir leur main et montrer s'ils ont gard�� la pi��ce. Le nombre total de pi��ces visibles d��cide du gagnant. Si ce nombre est Pair (0 ou 2 pi��ces visibles), le joueur A gagne, si une seule pi��ce est visible (Impair), le joueur B gagne. Le joueur qui gagne re?oit le score de +1 point, celui qui perd, -1 point. La matrice des r��sultats sera:

Ce jeu est ce que l'on appelle un jeu �� somme constante. Parce que le total de la somme des diff��rents r��sultats possible est toujours le m��me, en l'occurrence 0. Dans cet exemple, il ��vident que le joueur A essayera de toujours agir de la m��me fa?on que le joueur B, ainsi il y aura toujours 0 ou 2 pi��ces visibles et A sera gagnant. Le joueur B devra essayer de faire exactement le contraire du joueur A de telle sorte qu'une seule pi��ce soit visible.
Les deux joueurs peuvent s'observer et ��tudier le comportement de leur adversaire et r��agir en cons��quence. Dans ce cas, le plus observateur gagnera la partie. Mais il y a une autre option. Supposons que vous ��tes le joueur B et vous pensez ��tre moins bon observateur que le joueur A. Que pouvez-vous y faire ?
Imaginons que vous d��cidiez de montrer 0 pi��ce X% du temps et de montrer 1 pi��ce (1-X)% du temps. Le joueur A est meilleur observateur, il remarque notre comportement et choisit une option qu'il va appliquer 100% du temps. Admettons que vous d��cidiez de montrer 0 pi��ce 75% du temps et de montrer 1 pi��ce 25% du temps, alors X=0,75 et (1-X)=0,25. Le joueur A va vite s'adapter et choisir de de montrer 0 pi��ce 100% du temps afin de maximiser ses gains. Pourquoi ?
Nous pouvons calculer l'Expected Value (EV; c'est-��-dire l'esp��rance de gain sur le long terme) du joueur A :
EV(A) = (1)(X)(Y) + (1)(1-X)(1-Y) + (-1)(X)(1-Y) + (-1)(X-1)(Y)
o�� Y est le pourcentage de fois o�� A montre 0 pi��ce et X le pourcentage de fois o�� B montre 0 pi��ce. Cette formule peut sembler compliqu��e, mais ne vous laissez pas impressionner. A gagne 1 points s'il agit de la m��me fa?on que B et obtient -1 s'il agit de fa?on oppos��e. Puisque A est meilleur que B, il sait que X = 0,75 et 1-X = 0,25 et peut l'inclure dans son calcul d'EV.
EV(A) = (1)(0.75)(Y) + (1)(0.25)(1-Y) + (-1)(0.75)(1-Y) + (-1)(0.25)(Y)
EV(A) = 0.75Y + 0.25 �C 0.25 Y �C 0.75 + 0.75Y �C 0.25Y
EV(A) = Y �C 0.5
Tout ce que A �� faire, c'est d��cider de la valeur d'Y. Nous savons que Y doit ��tre compris entre 0 et 1 puisqu'il s'agit d'un pourcentage. Il devient ��vident que la valeur optimale pour A est Y=1. Son EV est alors ��gale �� 1-0,5=0,5. Si A d��cide de jouer avec Y=1 et ne montre jamais aucune pi��ce, il gagnera 75% du temps pour un score de +1 et perdra 25% du temps pour un score de -1.
Ce qui nous donne : (0.75)(1) + (0.25)(-1) = 0.5.
Maintenant, imaginons que le joueur B fait exactement le contraire. Ainsi, X = 0,25 et 1-X = 0,75. Le calcul d'EV du joueur A sera :
EV(A) = (1)(0.25)(Y) + (1)(0.75)(1-Y) + (-1)(0.25)(1-Y) + (-1)(0.75)(Y)
EV(A) = 0.25Y + 0.75 �C 0.75Y - 0.25 + 0.25Y -0.75Y
EV(A) = -Y + 0.5
Ceci est le calcul d'EV du joueur A apr��s qu'il a d��couvert fr��quence �� laquelle B montre sa pi��ce. Nous voyons que le joueur A maximise son EV quand Y=0. Son EV est alors de 0,5.
Ce que fait A en tout premier lieu, c'est de d��couvrir quelle est la strat��gie de B (car A est meilleur que B). Il ��value quel est le X de B, l'int��gre dans son calcul d'EV et connait alors la valeur d'Y qui maximise son EV. Selon la strat��gie choisie par B, A devra choisir la valeur d'Y qui sera toujours de 1 ou 0. Le joueur A va toujours choisir une action qu'il appliquera 100% du temps, car il sait que notre strat��gie est la cons��quence de sa meilleure observation.
Strat��gie optimale contre la Nemesis
A cause de cet avantage, le Joueur A va toujours choisir la strat��gie optimale contre B. A est la Nemesis de B. La Nemesis connait toujours notre strat��gie et choisit toujours la meilleure contre-strat��gie pour maximiser son EV. B s'en va d��pit�� puisqu'il lui semble impossible de gagner.
Mais il revient un peu plus tard avec un nouvel espoir. Il cherche quelle est sa meilleure strat��gie sachant que le joueur A va toujours r��agir en appliquant la strat��gie qui maximise son EV.
> Si le Joueur B d��cide de montrer 0 pi��ce plus de 50% du temps, son EV est :
EV(B) = (-1)(X) + (1)(1-X)
EV(B) = 1 �C 2X
L'on s'attend �� ce que le Joueur A retourne 0 pi��ce 100% du temps, parce qu'il est meilleur et conna?t la strat��gie de B. Si B montre 0 pi��ce X% du temps, A montrera aussi 0 pi��ce et aura un score de +1. Pour les (1-X)% du temps restant, B montre 1 pi��ce et A 0 pi��ce (�� cause de sa strat��gie optimale qui est de montrer 0 pi��ce 100% du temps) et B obtiendra +1 point.
> Si B d��cide de montrer sa pi��ce plus de 50% du temps, son EV est de :
EV(B) = (1)(X) + (-1)(1-X)
EV(B) = 2X �C 1
L'on sait que le joueur A va montrer 1 pi��ce 100% du temps, toujours parce qu'il est meilleur que B. Si B montre 0 pi��ce X% du temps, la joueur A va montrer 1 pi��ce 100% du temps (sa strat��gie optimale) et gagnera +1 point. Le reste du temps, (1-X)%, B montre 1 pi��ce tout comme A. Alors, A gagne +1 point et B obtient -1 point.
D��s lors, l'EV de B d��pend de X. Souvenez-vous que X est ��gal au pourcentage de fois o�� B retourne 0 pi��ce. Nous avons maintenant deux calculs d'EV pour deux strat��gies diff��rentes. La strat��gie 1 implique que B montre une pi��ce plus de 50% du temps, la formule est alors EV = 1 �C 2X. La strat��gie 2 suppose que B montre 1 pi��ce plus de 50% du temps, la formule est : EV = 2X �C 1.
Si nous mettons ces deux formules sous formes de graphique, nous obtenons :

Nous pouvons conclure de ce graphique que pour le joueur B, la strat��gie optimale est de montrer 1 pi��ce 50% du temps et de montrer 0 pi��ce les 50% du temps restants. M��me si les r��sultats peuvent sembler ��vidents avec cet exemple simple, certaines situations sont bien plus complexes. Lorsque vous faites face �� ces situations complexes, il est essentiel d'avoir compris le processus qui m��ne �� ce r��sultat. La strat��gie 1 est possible pour X compris en 0,5 et 1. La strat��gie 2 est possible si X est compris entre 0 et 0,5. Les deux strat��gies deviennent optimales quand X=0,5 et que l'EV=0.
R��alisant que pour toute autre valeur de X, l'EV de B est n��gative, il peut contrer la strat��gie du joueur A en montrant sa pi��ce 50% du temps. Le joueur A n'a plus aucun avantage m��me s'il conserve son sens de l'observation ou qu'il connait �� l'avance la strat��gie de B. Quelque soit la strat��gie choisit par A, il n'aura jamais une EV sup��rieure �� 0. B est donc parvenu �� neutraliser l'avantage du joueur A.
Cette m��thode peut aussi ��tre appliqu��e au poker, ce qui sera le sujet de la seconde partie de cet article.
10.000� de freeroll chaque jour sur Bwin.fr
Bwin.fr propose 31 tournois freerolls quotidiens dot��s de prize pool garantis allant de 150� �� 1.000� pour une dotation journali��re de 10.000�. Ouvrez votre compte aujourd'hui et b��n��ficiez d'un bonus de 500$ lors de votre premier d��p?t.