イプシロン貪欲方針と優先経験再生を用いたDQNの性能

本研究では、有限環境におけるDeep Q-Networks（DQN）の詳細な研究を行い、イプシロン貪欲探索スケジュールと優先経験再生の影響を強調しています。系統的な実験を通じて、イプシロンの減衰スケジュールの変動が学習効率、収束挙動、報酬最適化に与える影響を評価しました。また、優先経験再生が収束を早め、リターンを高める方法を調査し、均等戦略、リプレイなし、優先戦略の比較結果を示しています。これにより、DQNのトレーニングにおける探索戦略とメモリ管理のトレードオフと相互作用が明らかになり、リソース制約のある設定での堅牢な強化学習のための実用的な推奨事項を提供しています。