大規模言語モデルの整合性のための制御バリア関数

本論文では、大規模言語モデル（LLM）の整合性を高めるための制御ベースのフレームワークを提案しています。具体的には、制御バリア関数（CBF）を利用し、ユーザーが望むテキスト生成を確実にする方法を示しています。このフレームワークでは、元のLLMから生成される予測トークンに対してCBF安全フィルターを適用し、生成されたテキストに介入します。この安全フィルターは、2つの重大な利点を持っています。第1に、追加型のフィルターであり、元のLLMを微調整することなく整合性の目的で利用できる点です。第2に、望ましい整合性に関する評価モデルが存在する場合、それを直接フィルターデザインに適用できる点です。本システムは、積極的なテキスト生成を目指してオープンソースの言語モデルを用いて実装されています。