この記事では、Wei-Cheng LeeとFrancesco OrabonaによるTsallis-INFマルチアームバンディットアルゴリズムの最良の証明を紹介しています。この証明は、フェンケル共役を使用せず、オンライン凸最適化の現代的な手法を用いて行われます。このアプローチにより、証明がより簡潔になることが狙いとされています。Tsallis-INFは、確率的および対抗的なバンディットに最適なアルゴリズムとして知られており、2021年のJournal of Machine Learning Researchにも発表されています。この記事の目的は、従来の方法に依存せずに、このアルゴリズムの保証を簡潔に示すことです。