オンラインランキング学習(OLTR)は、大規模なアイテムプールから短いランキングリストを推奨し、ユーザーのクリックに基づいて将来のランキングを改善する方法を研究しています。この手法は通常、カスケーディングバンディットとしてモデル化され、ユーザーが提示されたアイテムの中から少なくとも1つをクリックする可能性を最大化することを目的としています。しかし、システムはクリック詐欺や他の操作(腐敗)に脆弱であり、ボットや有料クリックファームが学習プロセスを誤導し、ユーザー体験を損なう腐敗したフィードバックを挿入します。著者らは、腐敗設定におけるバンディットに初めて適用された新しい中央値推定量を取り入れたロバストなアルゴリズムMSUCBを提案します。この推定量は、腐敗のない場合には標準的な平均として機能し、腐敗の下でも外れ値を除去し、推定値を真の値に近づけます。実験において、MSUCBは腐敗がない状況で最適な対数的後悔を達成し、腐敗下でも優れた耐久性を示し、実世界のデータセットを用いた広範な実験によって優れた結果が示されています。