arXiv cs.AI

事後調整を通じたLLMのテスト時整合性の最適制御に基づくサンプリング

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

http://arxiv.org/abs/2510.26219v1


本論文では、テスト時の大規模言語モデル(LLM)の整合性を高める新しい方法「適応重要度サンプリング」(AISP)を提案しています。LLMの微調整は膨大な計算コストを伴うため、テスト時整合性の手法としてAISPは、ペナルティ層の出力であるプレロジットにガウス摂動を適用し、期待される報酬を最大化します。AISPは、サンプリングされた報酬を用いた重要度サンプリングによって最適な平均を導出し、使用したサンプル数に対する報酬において最適性能を示しました。この手法は、他の報酬ベースの整合性手法と比較しても高い報酬を得ることができると実証されています。