arXiv cs.AI

ヒューリスティックトランスフォーマー:信念強化コンテキスト学習の向上

Heuristic Transformer: Belief Augmented In-Context Reinforcement Learning

http://arxiv.org/abs/2511.10251v1


本記事は、トランスフォーマー技術を用いた新しい強化学習アプローチである「ヒューリスティックトランスフォーマー(HT)」について説明しています。このアプローチでは、報酬に対する信念分布を用いてコンテキスト内データセットを強化し、意思決定を改善します。具体的には、変分オートエンコーダ(VAE)を利用して報酬の事後分布を低次元の確率変数として学習し、それをコンテキストデータセットとともにトランスフォーマーのポリシーに統合します。実験では、Darkroom、Miniworld、MuJoCoなどの環境でHTのパフォーマンスを評価し、従来の手法よりも効果的かつ一般化能力が高いことを示しました。この研究は、信念に基づく強化手法とトランスフォーマーベースの意思決定を結びつける新たな可能性を示唆しています。