データがアルゴリズムとなる時: プリファレンス最適化データセットの体系的研究とキュレーション

When Data is the Algorithm: A Systematic Study and Curation of Preference Optimization Datasets

本論文では、大規模言語モデル（LLM）の整合性を高めるための研究と、代表的なオープンソースのプリファレンス最適化（DPO）データセットの体系的な解析が行われています。DPOは、優先的な出力を基にLLMを微調整する手法ですが、多くの最先端のLLMは具体的な優先ペアが公開されていないため、データセット間の系統的な比較が行われていません。この研究では、Magpieフレームワークを使用して、タスクカテゴリや入力品質、優先報酬の注釈付けを行い、データセット全体での優先度の質を詳細に分析しています。特に、新しいDPOミクスチャー「UltraMix」を提案し、既存の5つのデータセットからノイズや冗長性を排除しつつ、パフォーマンスを向上させることに成功しました。これにより、今後のデータ中心のプリファレンス最適化の研究を支援するために、すべての注釈とメタデータが公開されています。