文脈内学習を通じたLLMファインチューニングのためのホールドアウト損失ベースのデータ選択

大規模な事前訓練済み言語モデルのファインチューニングは、人間の好みにモデルを合わせるためによく用いられる方法ですが、ノイズの多いデータやターゲットから外れた例がスーパービジョンを希薄化させることがあります。本研究では、高価な再訓練やヒューリスティックに依存せず、データ選択と再重み付けのための理論に基づいた効率的なフレームワークを提案します。このフレームワークの中核となるのは、文脈内で小規模に整備されたホールドアウトセットを条件付けて候補例による損失を推定する「In-Context Approximation（ICA）」です。ICAは、追加のファインチューニングや参照モデルを必要とせず、モデルのパラメータが進化するにつれてダイナミックに勾配更新の再重み付けを行います。実験により、ICAに基づく再重み付けが、最小限のオーバーヘッドでモデルのアラインメントを一貫して改善することが確認されました。