Introduction à la GTO au poker (1/2)

Publié le par Francois M.

Cela fait bien longtemps que je voulais écrire cet article, et la parution récente de Poker GTO Memento m’en donne l’occasion. Il est de plus en plus souvent question de la GTO actuellement, tant dans les forums que dans les masterclass, les livres, les vidéos et les articles spécialisés. On trouve d’excellentes choses sur le sujet, d’autres qui sont nettement plus discutables, et ce sont ces dernières qui m’ont poussé à écrire cet article pour rappeler quelques bases.

Cet article n’est rien d’autre qu’une introduction, aussi vous n’y trouverez pas de concept complexe. Son but unique est qu’à la fin de votre lecture, vous ayez compris le principe de base de la GTO au poker. Pour des informations plus pointues et gratuites, je vous suggère de visiter les blogs des coaches, de regarder des vidéos et de visiter les sites de formation sérieux habituels. Cet article est en 2 parties.

La GTO est l’acronyme de Game Theory Optimal, que l’on traduira au plus près du texte par "Optimum de la Théorie des Jeux". Comme c’est UNE stratégie mais aussi UN optimum, vous trouverez cette expression aussi bien au masculin qu’au féminin. Ce n’est pas un terme spécifique au poker, puisque cet optimum est l’aboutissement d’études commencées dès le XIXe siècle par Antoine Augustin Cournot puis intensifiées dans les années 1920 par Emile Borel et John von Neumann (le "docteur Folamour" de Stanley Kubrick), lequel a commis en 1944 avec Oskar Morgenstern l’ouvrage fondateur de la théorie des jeux, Théorie des jeux et comportements économiques. Il part du postulat que tout acteur qui prend une décision en cherchant à maximiser son gain doit savoir qu’il existe toujours une décision optimale, c’est-à-dire une décision qui bat toutes les autres.

C’est la recherche de cet optimum qui a généré les années suivantes une multitude d’articles plus approfondis, avec ce qui est devenu le plus emblématique aujourd’hui, à savoir l’équilibre de Nash (du nom du prix Nobel d’économie 1994 John Forbes Nash). L’optimum n’est pas toujours un gain maximum, il peut être aussi une perte minimale dans les cas où la perte est inévitable, ce qui donne le concept de « minimax ».

John Forbes Nash

John Forbes Nash

A l’origine, la théorie de jeux n’a pas grand-chose à voir avec le ludique. Elle apparaît dans le domaine de l’économie, par exemple dans la fixation des prix, étant en cela un prolongement naturel de travaux de David Ricardo. Très vite, elle se diffuse dans le domaine mathématique et trouve là des outils qui lui permettent de se formaliser, comme l'analyse combinatoire ou les probabilités. L’apparition des premiers ordinateurs lui fera faire un grand pas en avant en lui donnant accès à des calculs jusqu'ici trop complexes et à des simulations à grande échelle.

En 1987,  le prix Nobel d'économie 2005 Robert Aumann a préféré à l’expression « théorie des jeux » l’expression « théorie des décisions interactives », qui décrit mieux de quoi il s’agit. Cette théorie s’avère extrêmement utile pour résoudre des prises de décisions épineuses, où aucune décision n’est clairement satisfaisante, mais où il faut essayer de trouver la décision la moins néfaste, qui dégage le maximum de gain ou le minimum de perte.

Il faut comprendre le mot « jeu » comme une série d’interactions entre divers acteurs du réel. Cette idée s’applique également à des sciences non exactes, comme la sociologie ou la psychologie. Pour avoir une meilleure idée de mon propos, je vous invite à lire l’excellent ouvrage d’Eric Berne, le fondateur de l'analyse transactionnelle, Des jeux et des hommes (1973). Il y est donné une multitude de situations interactives entre êtres humains, où sont décryptées des situations de dépendance, de chantage, d’autorité, de vexation, etc. Les chercheurs en théorie des jeux ont essuyé de nombreuses critiques sur les choix drastiques à perte élevée, comme : ma voiture est lancée à toute allure, une personne âgée traverse la route, mais si je l'évite je dégomme une fillette qui marche sur le trottoir ; quelle est la décision optimale ? Les chercheurs en théorie des jeux ont dû persuader les chercheurs en sciences sociales que la théorie des jeux n'est pas descriptive, mais au contraire, plutôt normative, car elle n'établit pas comment les gens se comportent (ni même comment ils devraient se comporter), mais comment ils doivent se comporter s'ils veulent atteindre certains objectifs.

La théorie des jeux a d’abord travaillé sur le cas de deux acteurs. La mise en place d’un « jeu » suppose 3 règles fondamentales :

  • Règle 1 : Les joueurs choisissent simultanément leur stratégie.
  • Règle 2 : Les joueurs connaissent le principe du jeu et le respectent (la tricherie et l’évitement ne sont pas des options).
  • Règle 3 : Toute coopération est interdite (le jeu doit être mené à son terme).

Moyennant quoi le jeu est lancé, chaque joueur ajuste progressivement sa stratégie à la stratégie adverse et on arrive finalement à l’issue du jeu, qui se traduit par un point d’équilibre qui satisfait les deux protagonistes. On se retrouve comme dans une économie sur un marché où les prix oscillent, puis se fixent après plusieurs interactions entre les offreurs et les demandeurs, comme c’est le cas pour la fixation du prix des valeurs mobilières en bourse. C’est le prolongement de la « discussion de marchands de tapis » de nos lointains ancêtres.

L’application-test la plus célèbre est le « dilemme du prisonnier ». En voici le descriptif, d’après Introduction à la théorie des jeux (Ernst-Ludwig von Thadden, juillet 2004) :

Deux suspects sont arrêtés et accusés d’un crime. La police ne dispose pas de preuves suffisantes pour faire condamner les suspects, à moins que l’un des deux avoue. La police les maintient dans des cellules séparées et leur explique les conséquences de leurs actions possibles :

  • Si aucun d’eux n’avoue, ils vont tous les deux être jugés pour un délit mineur et condamnés à une peine d’1 an de prison chacun.
  • Si tous les deux avouent, ils vont être condamnés à une peine de 5 ans de prison chacun.
  • Si l’un d’eux avoue et l’autre se tait, celui qui avoue sera libéré illico, mais celui qui se tait sera condamné à une peine de 8 ans de prison (5 pour le crime et 3 pour obstruction à la justice).

Pour les jeux finis à deux joueurs (c.à.d. des jeux dans lesquels tout joueur a un nombre fini de stratégies), il existe une manière bien disposée de décrire le jeu, celui de la « matrice des paiements », où un signe + désigne un bénéfice et un signe – désigne une perte. Chaque cellule de la matrice correspond à une issue du jeu, et contient donc deux résultats (un pour chaque joueur). Ici les résultats sont exprimés en mois de prison (C = coopération et NC = non-coopération) :

Introduction à la GTO au poker (1/2)

A partir de cette règle du jeu, les interactions peuvent commencer. Les tests sur de vrais humains montrent que le pourcentage de choix coopératifs, qui est de 43% à la première itération, diminuent progressivement au fil des itérations, pour chuter à 20% dans la cinquième, ce qui prouve que la non-coopération s’acquiert.

On dit qu’il y a « équilibre de Nash » quand aucun joueur ne peut obtenir strictement plus en déviant de sa stratégie d’équilibre. Si vous avez déjà utilisé les calculs d’ICM Nash (Independant Chip Model débouchant sur des gammes équilibrées, donc optimales), vous savez qu’en respectant les ranges données en réponse, vous restez optimal en fonction de votre position et de votre profondeur de jetons (et aussi des positions et des profondeurs de jetons adverses). Dans le cas du dilemme du prisonnier, le seul équilibre de Nash est l’issue non-coopérative (NC,NC). Aucun joueur n’a intérêt à en dévier unilatéralement, sauf à risquer d’écoper d’un séjour à l’ombre isolé de tous au lieu de partager la durée du dit séjour.

On a un exemple typique de jeu collaboratif au poker dans le cas des fins de tournoi. A 3 joueurs restants, si le plus petit tapis fait all-in, ses 2 adversaires vont checker jusqu'à la river sans se relancer afin de se donner, à bon compte, plus de chance de l'éliminer. Ce type de jeu est toléré en tournoi tant que les deux payeurs ne passent pas ce pacte de non-agression de manière verbale, mais tacite.

Dans le cas d’un duel comme dans le dilemme du prisonnier, l’engagement est maximum car on est acteur désigné de son propre destin, sans intermédiaire. Mais quand on aborde des problématiques comme le scrutin ou la pollution, des effets de démotivation émergent, du genre : « à quoi ça sert que je vote puisqu’il y a 30 millions de votants, alors un bulletin de plus ou de moins, cela ne changera pas le résultat ». Ou encore : « peu importe que j’achète une voiture électrique, la planète ne va pas mourir pour une voiture thermique de plus, surtout si tous les autres roulent en électrique ». Et le reste à l’avenant.

Un autre modèle simple est celui du jeu « pierre-papier-ciseaux », où deux joueurs tendent leur main en même temps sous forme d’une « pierre » (poing fermé, battu par le papier mais cassant les ciseaux), d’un « papier » (main à plat, battue par les ciseaux mais battant la pierre qu’elle enveloppe) ou de « ciseaux » (index et majeur formant V, cassés par la pierre mais coupant le papier). L’un des deux joueurs gagne à chaque fois, sauf en cas d’ex-aequo qui exige de rejouer.

On doit à David Sklansky ce qui restera probablement comme la meilleure étude du jeu « pierre-papier-ciseaux » mis en résonance avec le poker, dans son chef-d’œuvre The Theory of Poker (1987), que j’ai eu l’honneur de traduire en 2008 sous le titre Poker Théorie. Dans le 21e chapitre, il approfondit la décision de bluff en fonction de la théorie des jeux. Il ressort notamment de cette étude qu’il est profitable de traquer les « betting patterns » (modèles de mise) adverses, pour tenter d’en déduire les meilleures parades. Mais si la parade apparaît sous la forme d’un autre « betting pattern », le risque est grand de devoir à notre tour subir une parade en retour, qui baissera la rentabilité de notre jeu, voire le rendra EV–. La meilleure réponse est alors d’introduire une dose de hasard pur dans notre parade, car une décision gouvernée par le hasard ne peut pas être prévue par l’adversaire.

Ce point du recours au hasard est essentiel. Dans Poker Cash (2008), Dan Harrington suggère de porter un bracelet-montre avec trotteuse et de prendre la décision en fonction de l’endroit où se trouve la trotteuse au moment où on la regarde. Par exemple, s’il s’agit de choisir entre relancer et payer, on relance si la trotteuse est dans la moitié droite du cadran, et on paie si elle est dans la moitié gauche. C’est un moyen simple et discret d’introduire une dose de hasard pur dans notre jeu.

Dans une situation typique où nous pouvons relancer (par exemple, préflop au small blind avec K4o et une profondeur de 20BB), la moitié du temps nous relançons le BB et l’autre moitié du temps nous payons. Nous organisons notre illisibilité, et un joueur de poker qui n’est plus lisible devient un fléau pour ses adversaires.

Je m’arrête là dans les exemples, vous savez maintenant ce qu’est un jeu au sens de Nash. Notons juste que dans le cas du prisonnier, le jeu n’est pas à somme nulle. En 1928, von Neumann découvre qu’un jeu fini à somme nulle a toujours un maximum. Le poker joué en heads-up de tournoi est bien un jeu à somme nulle puisque ce que gagne l’un est ce que perd l’autre. C’est aussi le cas du tournoi multiway (de 3 à 9 joueurs par table), où il y a le même nombre de jetons à la fin d’un tournoi qu’au début. Mais ce n’est pas le cas en cash-game, où le pot gagné à chaque main est toujours réduit du rake. Il y a une fuite cumulative dans le circuit, ce qui crée un biais dans l’équilibre théorique.

 

« Jeu équilibré » et « jeu exploitant »

Le jeu équilibré ou GTO. Le « jeu équilibré » est la stratégie GTO, c’est-à-dire celle qui ne trouve aucune stratégie adverse qui lui soit supérieure. En jouant GTO, vous ne pouvez pas être exploité et vous ne trouverez que des adversaires qui feront moins bien que vous, ou, au mieux, qui feront jeu égal avec vous. A court ou moyen terme, c'est la variance qui vous départagera. La stratégie GTO a été définie à l’aide de solveurs, logiciels itératifs qui ont calculé la décision optimale pour chaque position, chaque profondeur et chaque main donnée au départ.

Le jeu exploitant. A contrario, Dans le « jeu exploitant », on suppose que nos adversaires ne jouent pas une stratégie GTO, et que nous pouvons nous permettre de nous écarter du jeu optimal dans le but d’améliorer notre espérance de gain. Donc le « jeu exploitant » s’éloigne peu ou prou du jeu équilibré, dans un sens ou dans un autre.

L’inconvénient du jeu exploitant est qu’il est aussi exploitable par l'adversaire. Pour prendre un exemple caricatural, le joueur qui fait 100% de continuation-bets au flop est exploitable, puisque d’après les probabilités il ne fait paire ou mieux que sur 32% des flops épars. Ce qui signifie qu’il est en bluff dans 68% des autres cas, donc exploitable par notre relance qui n’a besoin de gagner qu’une fois sur 3 au moins pour être rentable (et même environ une fois sur 4 si on tient compte des mises préflop, qui donnent autant d'extra-profit).

Avant que soit connue la notion de GTO, tout le monde jouait exploitant, donc exploitable. Le profil adverse nous engage à adapter notre jeu pour mieux en tirer parti, par exemple en jouant agressif s’il est trop passif, ou inversement, en jouant plus solide quand il se fait plus agressif. Dans ce jeu, il n’y a pas de notion de jeu équilibré, même s’il apparaît évident pour tout le monde que ce jeu équilibré existe forcément en toute abstraction. Le canal historique du joueur de poker s’est façonné au fil du XXe siècle à l’image du jeu exploitant/exploitable, comme celui d’un artisan des cartes qui aurait mis au point, au cours de longues années d’un perfectionnement douloureux et semé d’embûches, un ensemble de tactiques propres qu’il pense être le seul à produire.

La stratégie GTO, à l’inverse, est toujours la même quel que soit l’adversaire, puisqu’en elle-même elle est mathématiquement la meilleure et qu’il n’y a pas de parade exploitante contre elle. On trouve une démarche similaire avec la stratégie SAGE, qui avait été créée en 2005 par le joueur Lee Jones et le mathématicien James Kittock pour résoudre la fin des heads-ups en situation de short-stack, quand le stack effectif (le plus petit des deux) est tombé à 10BB ou moins. Le stade SAGE est celui du « push or fold », où la meilleure stratégie consiste à faire all-in à chaque fois qu’on possède une main minimale, la seule nuance étant qu’il faut une main plus forte en défense qu’en attaque, ce qui est une évidence et explique que cette stratégie comporte deux tableaux : un pour la défense et l’autre pour l’attaque. La stratégie SAGE ne résulte pas de la GTO qui provient d’itérations, mais de calculs en propre. Comme la GTO, elle est inexploitable. Toutes choses égales par ailleurs, SAGE donne un avantage d’environ 30% contre un adversaire qui ne la pratique pas.

Le fait est que, très vite, l’intelligence artificielle s’est invitée à la fête du Jeu, avec un grand « J ». L’intelligence artificielle porte assez mal son nom, "apprentissage artificiel" serait préférable. Le programme, au fil des confrontations, suit une courbe d’expérience montante en trouvant de lui-même les stratégies optimales. Plus il joue, meilleur il est. Les développeurs les plus pointus ont ainsi créé des IA de plus en plus performantes, qui en sont arrivées à battre les meilleurs humains dans des jeux relativement simples comme les dames ou Othello. Puis, pour un jeu nettement plus relevé comme les échecs, l’IA Deep Blue a battu le champion du monde Garry Kasparov en 1997 (je m’en rappelle encore, ça avait fait la une de tous les journaux sur le mode "l'homme battu par la machine"). Puis Deep Fritz a fait match nul contre le champion du monde Vladimir Kramnik en 2002. Monde surprenant qui tendrait à « démontrer » (avec tous les guillemets du monde) que c’est l’humain qui se serait amélioré entretemps face la machine, peut-être pour mieux la tromper – mais n’étant pas spécialiste des échecs, je n’en dirais pas plus.

S’agissant du poker, en 2017, l’IA Libratus a battu 4 pros du poker en duel sur 120.000 mains, avec un win-rate moyen de… 15BB/100 ! (lire mon article publié à l’époque).

On remarque aussi que déjà, dans leur livre Poker Maths Sup (Fantaisium 2013, paru aux USA en 2006 sous le titre Mathematics of Poker, chez Conjelco Publishing), Bill Chen et Jerrod Ankenman passent au crible plus de 60 jeux simples de poker, avec points d’équilibre et taux optimaux de bluff, et parlent déjà de « gammes » de jeu, ou « éventails », qu’on appellera ensuite « ranges ». Un certain Dan Harrington, gagnant du main event 1995 et champion d’échecs, et son compère Bill Robertie, champion de backgammon, parlent déjà eux aussi de « gammes » en réponse et de « lecture de gammes adverses » avec force exemples dans leur trilogie Poker Cash, publiée aux USA en 2008. A cette époque préhistorique, on n’en est pas encore à présenter les ranges sous forme de matrices 13 x 13, mais sous forme de lignes indigestes que l’on retrouve encore dans les solutions d’ICM Nash, par exemple :

Introduction à la GTO au poker (1/2)

De nos jours, les ranges GTO sont toujours montrées sous forme de matrices 13 x 13, comme celle-ci :

Introduction à la GTO au poker (1/2)

où l'on retrouve les 169 mains-modèles, la diagonale descendante présentant les paires, les mains suited (assorties) étant au-dessus de la diagonale et les mains offsuit (dépareillées) étant dessous.

(à suivre)

(Lire la deuxième partie de cet article)

Pour être informé des derniers articles, inscrivez vous :
Commenter cet article