大規模言語モデル修正のためのサンプル選択戦略に関する実践的研究

An Empirical Study of Sample Selection Strategies for Large Language Model Repair

大規模言語モデル（LLM）が現実のシステムで広く利用される中、毒性や偏りのある出力が安全性や信頼性を損なうことがある。本研究は、モデル修正のためのサンプル優先戦略を体系的に分析し、ランダムサンプリング、K-Center、勾配ノルムに基づく選択、層別カバレッジ、そして提案したセマンティック・アウェア・プライオリテイズド・サンプリング（SAPS）の5つの手法を評価した。実験結果は、SAPSがデータ量を大幅に削減しながら、毒性の低減と有用性の維持のバランスに優れた修正結果をもたらすことを示した。一方、大型または堅牢なモデルにはランダムサンプリングが依然として効果的であり、CCSやGraNdのような高オーバーヘッド手法は限られた利益しか提供しないことが示された。これらの発見は、サンプル選択が修正パイプラインの調整可能な要素であるべきことを示唆しており、選択に基づく修正がLLMの信頼性維持のための効率的かつスケーラブルなパラダイムであることを確立した。