深層強化学習におけるダブルデセントの存在について

本研究では、過剰パラメータ化されたモデルが補間点を超えて一般化精度を向上させる「ダブルデセント（DD）」の現象が、非定常な深層強化学習（DRL）の領域においても存在することを示す初期的な証拠を提示しています。アクター・クリティックフレームワークを用いて、モデルのキャパシティを変えながらシステマティックにDDを検証し、ポリシー不確実性を測定するために情報理論的な指標「ポリシーエントロピー」を使用しました。実験結果から、ポリシーが次の下降領域に入る際、ポリシーエントロピーが持続的に有意に減少することが明らかになりました。このエントロピーの減少は、過剰パラメータ化が暗黙の正則化として機能し、ロスランドスケープにおけるロバストでフラットな極値へとポリシーを導くことを示唆しています。これにより、DRLにおけるDDの重要性が明確になり、より一般的で移転可能、かつロバストなエージェントを設計するための情報に基づくメカニズムを提供しています。