大規模言語モデルには新たな監視形式が必要: 能力に基づくモニタリング

Large language models require a new form of oversight: capability-based monitoring

大規模言語モデル（LLM）の急速な導入は、これらの監視方法に対する注目を集めています。従来の機械学習に基づく監視はタスクベースであり、データセットの漂流によるパフォーマンス低下を前提としています。しかし、LLMは特定のタスクのために訓練されておらず、人口の変化によるモデルの劣化を前提にすることはできません。そのため、著者らは「能力に基づくモニタリング」という新たな原則を提案しています。このアプローチでは、要約や推論、翻訳などの共有されたモデル能力に基づいて監視を組織化し、タスク間のシステム的な弱点や新たな挙動を検出可能にします。最終的には、能力に基づくモニタリングがLLMや今後の汎用人工知能モデルの安全で適応的かつ協力的な監視の基盤を提供することを目指しています。