本研究では、メタオーダーの最適実行に向けた強化学習の活用を探ります。具体的には、実行上の短期的な損失と市場影響を最小限に抑えつつ、大きな注文を段階的に実行することを目的としています。従来のパラメトリックアプローチから離れ、モデルフリーかつデータ駆動型の枠組みを採用します。ポリシー最適化のためには歴史的データが提供できない仮想的なフィードバックが必要であるため、キュー反応モデルを利用し、瞬間的な価格影響や非線形かつ動的な注文フロー応答を含む現実的な制限注文ブックのシミュレーションを生成します。Double Deep Q-Networkエージェントを時間、在庫、価格、深さの変数からなる状態空間で訓練し、その成果を確立されたベンチマークと比較します。数値シミュレーションの結果、エージェントは戦略的かつ戦術的なポリシーを学習し、注文ブック条件に柔軟に適応し、複数の訓練設定で標準アプローチを上回ることが示されました。モデルフリーの強化学習が最適実行問題に対し適応的かつ堅牢な解決策を提供できることが強く示されています。