この記事では、オフライン強化学習(RL)の分野に焦点を当て、意思決定トランスフォーマー(DT)と従来のオフラインRLアルゴリズムの性能を比較しています。従来のアルゴリズムである保守的Q学習(CQL)や暗黙的Q学習(IQL)は、探索と活用のバランスを取ることが難しく、報酬の密度が異なる環境では課題があります。一方で、DTはオフラインRLをシーケンスモデリングの問題として再定義し、多くのベンチマークで優れた結果を示しています。研究では、ANT連続制御環境における密と疎の報酬設定において、これらのアルゴリズムが異なる報酬構造に直面した際のパフォーマンスを評価しました。結果として、DTは報酬の密度に対して感度が低く、特に疎報酬シナリオでは中程度の専門データセットで優れた性能を発揮しました。一方、IQLは密報酬設定で高品質なデータのもとで改良されたパフォーマンスを示し、CQLは異なるデータ品質に対してバランスの取れたパフォーマンスを提供しました。DTはパフォーマンスの分散が低いものの、従来のアプローチに比べて計算リソースを多く必要とします。これらの結果は、シーケンスモデリングが不確定な報酬構造や混合品質のデータに適している可能性を示唆しています。