本論文では、人工知能のサンプル非効率性問題に対処するため、Distributed Adaptive Control(DAC)理論に基づく新たな認知アーキテクチャDAC-MLを提案しています。従来の深層強化学習モデルは、少数のエピソード内での行動ポリシーの最適化に限界があり、エピソード強化学習による記憶システムや構造的バイアスを追加する試みが行われてきましたが、人間の行動ポリシーの学習には及びませんでした。本研究では、海馬にインスパイアされた逐次記憶システムを取り入れることで、効果的な行動ポリシーに迅速に収束し、報酬取得を最大化する能力を持つことを示しています。特に、難易度の高い採餌タスクにおいてその有効性が検証されました。