AIエージェントのための独自のモデルベースの安全応答フレームワーク

本論文では、大規模言語モデル（LLMs）の普及に伴い、関連するセキュリティ問題が顕在化し、重要な領域での信頼できる展開が制約される中で、LLMsを体系的に保護するための新たな安全応答フレームワークを提案しています。このフレームワークは、入力レベルでは、監視されたファインチューニングに基づく安全分類モデルを利用し、ユーザーのクエリのリスクを精密に識別するための四層の分類（安全、危険、条件付き安全、集中注意）を行い、99.3%のリコール率を達成しています。また、出力レベルでは、リアルタイムで信頼できる知識ベースに基づいた応答を確保するために取得強化生成（RAG）を統合しています。このアプローチにより、情報の改ざんを排除し、結果の追跡可能性を確保します。実験結果は、提案された安全制御モデルが一般的な安全評価のベンチマークで顕著な安全スコアを達成したことを示しています。この研究は、高いセキュリティと信頼性を持つLLMアプリケーションを構築するための効果的な工学的手法を提供しています。