深層強化学習駆動の自律サイバー防御のための大規模言語モデルに基づく報酬設計

Large Language Model-Based Reward Design for Deep Reinforcement Learning-Driven Autonomous Cyber Defense

この論文では、複雑で動的な環境における自律的なサイバー攻撃と防御学習エージェントのための報酬設計の課題に対し、大規模言語モデル（LLM）を活用したアプローチを提案しています。このアプローチでは、様々な攻撃と防御を行うエージェントのペルソナを作成し、LLMがサイバーシミュレーション環境の文脈情報を基に報酬を生成します。その後、これらの報酬構造を深層強化学習（DRL）駆動のシミュレーション環境に適用し、効果的なサイバー防御政策を学習させます。実験結果は、LLMによる報酬設計が多様な敵対行動に対抗する効果的な防御戦略に結びつくことを示唆しています。