本研究は、マルチオブジェクティブ強化学習(MORL)におけるスカラー化関数の限界を探るものである。特に、離散的な行動と観察空間を持つMORL環境において、MO Q-Learningアルゴリズムを線形スカラー化およびチェビシェフスカラー化関数を使用して評価する。研究結果は、スカラー化関数の性能が環境やパレートフロントの形状に大きく依存していることを示しており、これらの関数は学習中に発見された解を保持することができず、特定の解空間領域における解の発見を好む傾向がある。一方で、Pareto Q-Learningのような内ループマルチポリシーアルゴリズムは、動的かつ不確実な環境においてより持続可能で一般化可能なアプローチを提供する可能性がある。