arXiv cs.LG

クラスタ化されたLQRシステムからのデータ活用: パーソナライズされた協調ポリシー最適化

Harnessing Data from Clustered LQR Systems: Personalized and Collaborative Policy Optimization

http://arxiv.org/abs/2511.17489v1


強化学習(RL)はデータを多く必要とするため、データ効率を向上させるために「おおよそ類似した」プロセスからのデータを活用することが提案されています。しかし、プロセスモデルが不明なため、類似プロセスの特定は困難です。本研究では、この問題をベンチマークである線形二次制御器(LQR)の設定において検討します。具体的には、複数のエージェントからなる設定を考慮し、エージェントのプロセスはダイナミクスやタスクの類似性に基づいてクラスタに分割されます。本研究では、逐次除去とゼロ次最適化のアイデアを組み合わせた新しいアルゴリズムを提案し、同時にクラスタリングと学習を行うことで、各クラスタに対してパーソナライズされたポリシーを生成します。我々のアプローチは、高い確率で正しいクラスタリングを保証し、各クラスタに対して学習されたポリシーのサブ最適性のギャップはクラスタのサイズに反比例します。この研究は、データ駆動型制御におけるクラスタリングの初の利用方法を示し、異なるプロセスからのデータが混在するときのサブ最適性の影響を回避します。