本論文では、大規模言語モデル(LLMs)の普及に伴い、関連するセキュリティ問題が顕在化し、重要な領域での信頼できる展開が制約される中で、LLMsを体系的に保護するための新たな安全応答フレームワークを提案しています。このフレームワークは、入力レベルでは、監視されたファインチューニングに基づく安全分類モデルを利用し、ユーザーのクエリのリスクを精密に識別するための四層の分類(安全、危険、条件付き安全、集中注意)を行い、99.3%のリコール率を達成しています。また、出力レベルでは、リアルタイムで信頼できる知識ベースに基づいた応答を確保するために取得強化生成(RAG)を統合しています。このアプローチにより、情報の改ざんを排除し、結果の追跡可能性を確保します。実験結果は、提案された安全制御モデルが一般的な安全評価のベンチマークで顕著な安全スコアを達成したことを示しています。この研究は、高いセキュリティと信頼性を持つLLMアプリケーションを構築するための効果的な工学的手法を提供しています。