本研究では、責任あるAIの次元(公正性など)を評価するためのユースケース特化型データセットを構築しました。従来の大規模言語モデル(LLM)の評価手法は、一貫したAIアプリケーションをターゲットにしておらず、そのため評価が不十分な場合があります。本データセットは、製品の特徴リストに基づくテキスト生成という実世界のアプリケーションを基にしており、公正性の属性と性別形容詞、製品カテゴリを組み合わせて多様なラベル付きプロンプトを生成します。このデータを用いることで、LLMの質、真実性、安全性、公正性のギャップを特定する方法を示し、研究コミュニティにとって有用なリソースを提案します。