エリートの人間を出し抜き、ブラフをかける：セルフプレイと強化学習によるライアーズポーカーの習得

Outbidding and Outbluffing Elite Humans: Mastering Liar's Poker via Self-Play and Reinforcement Learning

この記事では、AI研究者が不完全な情報や不確実性の中での推論を必要とするマルチプレイヤーゲームのテストベッドとしてポーカーゲームに注目してきた背景が述べられています。特に、最近の成功により、ノーリミットテキサスホールデムにおいてエリート人間のプレイと同等のレベルに達しましたが、多人数が参加するゲームではプレイヤー間のダイナミクスが抑えられることが指摘されています。そこで、本研究では新たに開発したAIエージェント「Solly」が紹介されており、彼はライアーズポーカーというゲームでエリート人間レベルのプレイを実現しました。Sollyはモデルフリーの強化学習アルゴリズムを用いて自己対戦で学習し、競技者と対戦した結果、勝率50%以上を記録しました。また、彼は新しい入札戦略を驚異的に生み出し、確率的にプレイし、世界トップクラスのプレイヤーからも容易に攻略されない能力を示しました。