arXiv cs.LG

オンライン線形二次制御における混乱事例原則

The Confusing Instance Principle for Online Linear Quadratic Control

http://arxiv.org/abs/2510.19531v1


本記事では、未知のダイナミクスを持つ線形システムの制御問題に対して、モデルに基づく強化学習を用いる方法を再考します。従来のアプローチである不確実性に対する楽観主義やトンプソンサンプリングは、実用上の制限があります。これに対し、著者達は、混乱事例(CI)原則に基づく新しい手法を提案しています。この原則は、マルチアームバンディット(MAB)や離散マルコフ決定過程(MDP)における後悔の下限を支えるもので、最小経験的発散(MED)アルゴリズムの最適性の基盤でもあります。LQRポリシーの構造を活用し、感度と安定性の分析を行うことで、MED-LQという新しい制御戦略を開発しました。この戦略は、CIとMEDの原則を小規模設定から拡張することを目指します。実験結果では、MED-LQが様々なシナリオで競争力のあるパフォーマンスを達成し、大規模MDPへの応用の可能性を示しています。