この論文では、連続時間における主-agent(PA)問題の数値解法を考察しています。一般的なPAモデルを定式化し、連続および一括払い、エージェントの多次元戦略を取り扱います。結果として得られるハミルトン・ジャコビ・ベルマン方程式に対処するために、新たな深層学習手法であるDeep Principal-Agent Actor Critic(DeepPAAC)アルゴリズムを開発しました。DeepPAACは、多次元状態や制御、制約を扱うことができ、ニューラルネットワークのアーキテクチャ、トレーニング設計、損失関数などが解法の収束に与える影響を調査し、5つの異なるケーススタディを提示しています。