多様な行動スイート：カスタム行動ポリシーのマルチターン遵守のストレステスト

Pluralistic Behavior Suite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies

本研究では、企業の方針や規制要件に応じた大規模言語モデル（LLM）の評価方法「PLURALISTIC BEHAVIOR SUITE（PBSUITE）」を提案しています。PBSUITEは、300種類の現実的な行動ポリシーを含む多様なデータセットと、カスタム行動仕様への適合性を過酷な条件下で試験する動的評価フレームワークから構成されます。実験結果では、単一ターンの設定ではLLMの行動ポリシーへの遵守率が4%未満と高いものの、マルチターンの対話では84%の失敗率を記録しました。この結果から、現在のモデルの整合性や安全性の管理手法が、実際のLLMの相互作用において多様な行動ポリシーを一貫して強制するには不十分であることが示されました。本研究は、堅牢かつ文脈に配慮した多様な整合性技術の確立に向けたデータセットと分析フレームワークを提供することを目指しています。