arXiv cs.LG

堅牢な分散型マルチアームバンディット:腐敗耐性からビザンチン耐性へ

Robust Decentralized Multi-armed Bandits: From Corruption-Resilience to Byzantine-Resilience

http://arxiv.org/abs/2511.10344v1


この記事では、分散型協力マルチエージェントマルチアームバンディット(DeCMA2B)の問題に着目しています。この手法は、複数のエージェントがどのように協力するかを扱っていますが、従来の方法は様々な敵対的攻撃に弱いことが多いです。著者たちは、まず敵対者が全エージェントの報酬観測を限られた予算で腐敗させるシナリオを研究し、その後、個々のエージェントの後悔が腐敗予算に比例する追加項のみに制限される堅牢なアルゴリズム、DeMABARを提案します。また、敵対者がごく少数のエージェントのみを攻撃できるより現実的なシナリオを考慮し、このアルゴリズムが敵対攻撃の影響をほぼ完全に排除できることを理論的に示します。最終的には、提案手法の堅牢性と有効性を示すための数値実験も行われています。