SDA：ファインチューニングなしのオープンLLMのための指向型分布調整

本記事では、オープンソースの大規模言語モデル（LLM）に対する新しい調整手法「SDA（Steering-Driven Distribution Alignment）」を提案しています。LLMの実用化が進む中、モデルの出力が人間の意図に沿ったものになるよう調整することは重要な課題です。SDAはファインチューニングなしで、ユーザーが定義した指示に基づいてモデル出力の確率を動的に再配分し、効率的かつ効果的にモデルの振る舞いと人間の意図の整合を図ります。この手法はリソース効率が良く、様々なオープンソースLLMに対応可能で、単独でまたは他のトレーニングベースの戦略と統合して使用できます。実験結果により、SDAがヘルプフルネス、ハーレスネス、ホネスティネスといった調整の重要な次元でのパフォーマンスを向上させることが示され、特に平均して64.4%の改善を達成しています。