本研究では、エッジ推論の課題に着目し、カスケードバンディットモデルの一種を考察しています。各アームは精度と誤差確率を伴う推論モデルに対応しており、Explore-then-Commit、Action Elimination、Lower Confidence Bound (LCB)、Thompson Samplingの4つの意思決定ポリシーを分析します。従来のバンディット設定とは異なり、Explore-then-CommitとAction Eliminationは固定された順序に従うために最適ではない後悔を被る一方で、LCBとThompson Samplingは観察されたフィードバックを元に継続的に意思決定を更新し、常にO(1)の後悔を達成します。シミュレーション結果はこれらの理論的な発見を裏付けており、不確実な環境下での効率的なエッジ推論には適応性が重要であることを示しています。