Bluffante IA : une intelligence artificielle peut maintenant battre les professionnels du poker Texas Hold’em
La liste des jeux dans lesquels les humains dominent encore ne cesse de rétrécir. Les dernières victimes sont 6 joueurs du poker Texas hold’em , que l’intelligence artificielle (IA) Pluribus a dominé, d’après une étude publiée cette semaine.
Image d’entête : l’IA Pluribus lors d’un de ses entrainements au Texas hold’em. (Université Carnegie Mellon)
Au cours de 20 000 parties de poker en ligne, Pluribus a, à maintes reprises, vaincu ses adversaires humains, dont quinze des meilleurs professionnels mondiaux.
Pluribus est l’idée de Noam Brown de Facebook et Tuomas Sandholm de l’université Carnegie Mellon, et elle n’est certainement pas la première IA de jeu à dominer les humains, mais sa prouesse est exceptionnelle pour plusieurs raisons. La plupart des parties dans lesquelles les IA et les humains ont été opposés impliquent deux joueurs, qui ont tous deux une connaissance complète de ce qui se passe dans le jeu (par exemple lorsque toutes les pièces du jeu sont clairement affichées sur un plateau devant eux, comme dans les échecs). Texas Hold’em, d’autre part, est multijoueur, et dépend de la rétention d’informations des cartes que chaque joueur détient, par rapport à celles qui restent dans le jeu.
Les jeux comme le poker sont également délicats en raison du nombre de mouvements possibles qui peuvent être effectués pendant le jeu. Une telle complexité donne à ces jeux un niveau d’imprévisibilité qui, d’une certaine façon, est plus représentatif des ambiguïtés dans la prise de décision dans le monde réel, ce que les IA n’ont pas encore su gérer avec une dextérité humaine.
Pour mettre Pluribus au point, Brown et Sandholm ont soumis le programme à des séances d’entraînement rigoureuses au cours desquelles l’IA a joué contre elle-même à plusieurs reprises, affinant sa technique par essais et erreurs. Ils ont aussi soigneusement conçu Pluribus pour prédire les prochains coups de ses adversaires, une stratégie qui a donné à l’IA un avantage sans l’obliger à calculer toutes les possibilités jusqu’à la fin du jeu, ce qui aurait rapidement coûté cher en termes de calcul. Avec ces paramètres, l’entraînement de Pluribus n’a pris que 8 jours, dans un processus qui pouvait être reproduit pour seulement 150 $ (133 Euros), selon le rapport Brown et Sandholm.
Les chercheurs ont ensuite envoyé Pluribus sur le terrain, sous la forme d’une salle de poker en ligne où il a joué 10 000 parties contre 5 adversaires humains, et 10 000 autres où un seul adversaire humain a affronté 5 copies de l’IA. Bien que Pluribus ne soit pas sorti victorieux à chaque fois, il a assez bien joué pour que, si de l’argent réel avait été en jeu, le programme aurait rapporté environ 1 000 $ (888 Euros) de l’heure.
Brown et Sandholm attribuent une partie de cette série de victoires au gameplay imprévisible de Pluribus. L’IA a réussi à bluffer et à changer de stratégie. Elle a aussi parié avec audace sur les moments où les joueurs humains auraient pu se dérober devant le stress. La combinaison gagnante a payé.
Selon Jimmy Chou, joueur pro de poker :
Chaque fois que je joue contre un bot, j’ai l’impression d’apprendre quelque chose de nouveau à incorporer dans mon jeu. En tant qu’humains, je pense que nous avons tendance à trop simplifier le jeu pour nous-mêmes, ce qui rend les stratégies plus faciles à adopter et à retenir. Le robot ne prend aucun de ces raccourcis.
De toute évidence, Pluribus est impressionnant, mais il reste à voir dans quelle mesure ses compétences sont réellement transférables à d’autres domaines. Brown et Sandholm qualifient les réalisations de l’IA de » surhumaines » et espèrent adapter leur méthodologie à des applications dans les domaines de la cybersécurité, de la détection de fraude, de la conduite automobile et d’autres domaines qui exigent une résolution de problèmes complexes.
Mais l’intelligence artificielle n’a pas encore égalé, et encore moins battu, les humains dans d’innombrables autres domaines comportementaux. Les jeux ne reflètent que très peu les difficultés de vivre dans le monde réel. Pour s’en sortir, l’être humain doit briser les règles, collaborer, innover et s’adapter à des évolutions inattendues.
Un des vidéos des performances de Pluribus, dans laquelle elle bluffe contre des joueurs professionnels… et gagne.
L’étude publiée dans Science : Superhuman AI for multiplayer poker et présentée sur le site de l’Université Carnegie Mellon : Carnegie Mellon and Facebook AI Beats Professionals in Six-Player Poker.