私の人間のフィードバックには何が含まれているのか？好みデータの解釈可能な記述の学習

What's In My Human Feedback? Learning Interpretable Descriptions of Preference Data

この記事では、人間のフィードバックが言語モデルに与える影響について分析し、フィードバックデータの解釈可能な特徴を抽出する新しい手法「What’s In My Human Feedback?（WIMHF）」を提案しています。従来の研究は特定の属性に対する好みを調査していましたが、WIMHFは自動的に関連する特徴を特定することができます。この手法は、データセットの好みを測定する能力と、実際に表現される好みを特定することができ、異なるデータセットにおける特徴の多様性を明らかにします。例えば、Redditのユーザーはインフォーマルでジョークを好む一方で、HH-RLHFやPRISMのアノテーターはそれを好まない傾向があります。また、この手法を用いることで、安全性の低い好みの特定やデータのキュレーションが可能になります。最終的に、WIMHFは、実務者が好みデータをより良く理解し活用するための人間中心の分析手法を提供します。