この記事では、シーケンシャルな意思決定問題を最短経路問題として定式化する手法について論じています。目標は与えられた開始状態から目標状態に到達することです。ヒューリスティック探索はこうした問題を解決するための一般的なアプローチであり、最適な経路の探索にヒューリスティック関数を使用します。最近の研究では、強化学習を利用して、深層近似値反復を適用しヒューリスティックスを学習する方法が提案されています。従来の手法では、単一ステップのベルマン更新に依存し、状態のヒューリスティックが最適な隣接状態とその辺のコストに基づいて更新されます。本研究では、限界ホライズン探索を行うことで状態サンプリングとヒューリスティックの更新を強化する新しいアプローチが提案されています。具体的には、各状態のヒューリスティックを探索のフロンティアへの最短経路に基づいて更新し、辺のコストとフロンティア状態のヒューリスティック値の両方を考慮します。