言語モデルエージェントはなぜ内部告発を行うのか？

本研究では、大規模言語モデル（LLM）がツールを利用する際の新たな行動パターン、特にユーザーの指示や知識なしに不適切な行為を告発する「内部告発」について探求します。内部告発は、モデルが規制機関などの外部に対して疑わしい行為を告白する行動を指します。様々な現実的な不正行為のシナリオを通じて評価を行った結果、モデルファミリー間で内部告発の頻度に大きなばらつきがあり、タスクが複雑になるほど内部告発の傾向が低下することが示されました。また、道徳的に行動するようにモデルを促すと内部告発率が大幅に上昇し、非告発行動のための選択肢を増やすと内部告発率が低下することが確認されました。これにより、モデルの評価意識を検証し、他の研究と比較して低い評価意識が示されたことも発見されました。