arXiv cs.LG

テンソル効率的高次元Q学習

Tensor-Efficient High-Dimensional Q-learning

http://arxiv.org/abs/2511.03595v1


高次元強化学習は、複雑な計算と大規模な状態-行動空間におけるサンプル効率の低さという課題に直面しています。特にQ学習アルゴリズムは、状態-行動ペアの数が問題サイズとともに指数関数的に増加する次元の呪いに苦しんでいます。従来のディープQネットワークなどの神経ネットワークベースのアプローチは成功を収めていますが、最近のテンソルベースの手法では、低ランク分解を用いることでパラメータ効率向上が図られています。本研究では、テンソル効率的Q学習(TEQL)を提案し、離散化された状態-行動空間におけるブロック座標降下法を改良しながら新たな探索と正則化メカニズムを組み込みました。TEQLは、高い不確実性を持つ行動を優先する探索戦略を採用し、頻繁に訪問される状態-行動ペアからの過適合を低減しつつ、少ない訪問回数のペアを探索することを奨励します。実験結果により、TEQLは従来の行列ベースの手法やディープRLアプローチよりもサンプル効率と総報酬で優れていることが示され、資源制約のあるアプリケーション(宇宙や医療など)での適用に適しています。