制限されたAPIコールでの大規模言語モデルの高度なブラックボックス調整

本論文では、大規模言語モデル（LLM）のブラックボックス調整手法について議論されており、特に直接モデルパラメータにアクセスできない場合の適応方法に焦点を当てています。従来の手法は、効率的だが限られた改善をもたらす小さなプロキシモデルの訓練と、計算コストが高い各調整イテレーションでのAPIコールの使用の二択に陥っています。著者らは、最小限で情報量が多い訓練データセットから派生した「LogitMapペア」を用いてガウス過程サロゲートモデルを訓練する新たな手法を提案します。このサロゲートモデルは基盤モデルの出力を近似しつつ、プロキシモデルの訓練を促進することで、直接のAPIコールの必要性を効果的に削減します。実験では、訓練された言語モデルの精度を55.92%から86.85%に向上させ、APIクエリの頻度は1.38%に減少しました。また、この手法はAPI非アクセス型のオフラインアプローチを大きく上回り、クエリ集約型のアプローチとも同等またはそれ以上の精度を実現し、コストを大幅に削減します。