C’est fait : l’intelligence artificielle bat l’homme au poker à deux

Publié le par Francois M.

Cette fois on y est. Le robot est meilleur que l’homme au poker, mais, précisons-le, uniquement en heads-up – en tout cas pour le moment. Pour le shorthanded (5 ou 6 joueurs) ou la table pleine (9 ou 10 joueurs), il faudra patienter – mais ça viendra sûrement, probablement tard, si l’on s’en tient à la conclusion de Bill Chen, l’auteur du brillant Mathematics of Poker : « Dans les scénarios multi-joueurs [en théorie des jeux], il n’y a pas de stratégie optimale ». On souhaite bon courage aux ingénieurs de tout poil pour s'attaquer à la face nord.

Mais rappelons les faits, au cas où vous seriez passé à côté ces jours derniers :

Un robot nommé Libratus mis au point par la Carnegie Mellon University de Pittsburgh (en fait, Noam Brown et Tuomas Sandholm) a affronté quotidiennement, du 11 au 30 janvier 2017 à raison de 8 heures par jour, 4 joueurs professionnels habitués des plus grosses parties sur Internet.

Ces joueurs, vous ne les connaissez probablement pas, mais ce qu’on peut vous dire, c’est que ce sont des pointures, habitués aux tables chères. Leurs noms : Dong Kim, Jimmy Chou, Jason Les et Daniel McAulay.

Le test a consisté en 120.000 mains en $50/$100, avec tapis de $20.000 soit 200BB au début de chaque main. Dollars fictifs, évidemment – quoique ce point ait son importance. Avec de vrais dollars, le robot aurait joué de la même manière sauf à changer sa programmation… mais pas les humains, on peut le penser. Je sais, je cherche la petite bête, mais un humain reste un humain, même un pro du poker.

Peu importe. Voici les résultats, et franchement ils font mal aux yeux :

Les résultats… et on tient un nouveau champion

Les résultats… et on tient un nouveau champion

Ce tableau étant très mal fait, il est beaucoup plus parlant présenté ainsi :

  • Dong Kim : –$85.649
  • Daniel McAulay : –$277.657
  • Jimmy Chou : –$522.857
  • Jason Les : –$880.087
Dong Kim, le moins éprouvé des quatre

Dong Kim, le moins éprouvé des quatre

Daniel McAulay

Daniel McAulay

Jimmy Chou

Jimmy Chou

Jason Les, punching-ball de Libratus

Jason Les, punching-ball de Libratus

Soit un gain total de Libratus égal à $1.766.250. Le winrate de Libratus est donc :

1.766.250 / 120.000 / 100 x 100

= 15 BB / 100 mains ! (j’arrondis au BB le plus proche)

C’est-à-dire une rentabilité qui dépasse de très loin les WR des pros actuels en NL100 par exemple, qui avoisine plutôt les 5-8 BB / 100 mains. 15 BB / 100 mains, c’est un WR qui nous ramène en gros à la rentabilité d’un pro en 2008, quand le ciel du poker online était encore sillonné par de nombreux pigeons, donc avant le Black Friday du 15 avril 2011.

Certes, on peut critiquer le fait que 120.000 mains peuvent ne pas constituer un échantillon suffisant. Mais que le robot gagne contre 4 joueurs, joués chacun pendant 30.000 mains, là c’est statistiquement significatif… même s’il reste encore une probabilité non nulle que la malchance ait joué contre les quatre testeurs. Mais restons-en là : le résultat est accablant, point final. Car dans cet aller-retour incessant où chaque adversaire ajuste constamment sa manière de jouer pour mieux triompher (théorie des jeux, ICM Nash), c’est la machine qui gagne.

Enfin… accablant n’est pas le mot, finalement. Car depuis ORAC, le premier ordinateur pokérien mis au point par Mike Caro au milieu des années 80 (qui a eu mine de rien une victoire sur trois tentatives contre Bob Stupak), il aura fallu pas moins de 30 ans pour que l’intelligence artificielle arrive à battre les humains au poker… et encore, seulement en tête-à-tête. Il aura fallu beaucoup moins de temps pour les échecs (Deep Blue contre Garry Kasparov, 11/05/1997) et le go (AlphaGo contre Lee Sedol, 12/03/2016).

Il faut aussi considérer l’avancée que représente cette prouesse technique et ses applications futures dans divers domaines. Ici, Libratus s’est d’abord exercé sur des milliards de mains à partir d’un programme lui expliquant les rudiments : règles, principes d’enchères, etc. Il a appris de son expérience en mode autonome et, ce faisant, est devenu un adversaire redoutable. Enlevez-lui sa mémoire, il redevient moins bon qu’un gamin de 5 ans – revoyez la scène fascinante de 2001 Odyssée de l’Espace où l’astronaute Dave déconnecte une à une les mémoires de Carl :

"Au Clair de la Lune", la chanson qu'apprennent les super-ordinateurs quand ils sont petits.

    Mais exercez-le à nouveau : il battra Isildur les doigts dans le nez.

    Cette prouesse est donc celle de l’autonomie du robot, qui s’améliore seul au fil des mains, et c’est en cela que le travail des ingénieurs est remarquable. Paramétrer une intelligence artificielle de manière assez pointue pour progresser dans le poker, en incluant le bluff. La machine arrive à déduire si payer un all-in avec une main très moyenne est EV+ au vu des habitudes du joueur qu’elle affronte.

    Changer de stratégie, il sait aussi le faire. Il sait même résister aux changements de stratégie de l’adversaire.

    Trouver aussi le bet-sizing le mieux approprié. Donc définir pour chaque joueur un barème qui fixe aussi bien la fear equity que la rentabilité optimale d’un value-bet. Tempête sous un crâne… D’ailleurs on se souvient de tentatives précédentes, qui n’ont pas été si ridicules, après ORAC. En 2007, Phil Laak avait fini par rabattre son caquet à Polaris, mais Cepheus a « terminé » le Heads Up en limit Hold'em. Plus récemment, en mai 2015, Claudico avait dû aussi jeter l’éponge face aux humains. Il était la version précédente de Libratus, mis au point par la même équipe.

    Se faire battre par de vulgaires filaments de cuivre en plaquettes, quand on a un bon cortex palpitant dynamisé par des milliards de neurones en pleine forme, reliés par des synapses bouillonnantes, et activés par une expérience du jeu incomparable… c’est vexant. Mais Kasparov l’a vécu il y a 20 ans, et pourtant il était Grand Maître d’échecs avec un classement ELO de 2.851 battu une seule fois depuis. Et que je sache, il n’existe encore aucun Grand Maître du poker.

    Alors je dis qu’il faut passer à la vitesse supérieure. Ces robots, faisons-leur ravaler leur superbe. Faisons-les maintenant jouer entre eux, et quand ce veule de Libratus – qui n’est qu’un sans-papier, qui a donc tout à craindre de Trump – aura trouvé son maître qui le bat à plate couture, il  admettra enfin qu’il n’est pas le meilleur. Un jour viendra, je pense, où les robots auront leur propre série de tournois.

    En attendant ce jour qui nous remontera – un peu – le moral, que ceux qui veulent persévérer en heads-up en poker en ligne le fassent. Dommage, car c’était la seule version de l’online poker où l’on était absolument certain qu’il n’y avait pas collusion !

    Commenter cet article