CreBench: 人間に基づく創造性評価のアイデアからプロセス、製品まで

本稿では、創造性の人間的定義が非常に抽象的であり、多モーダル大型言語モデル（MLLM）が人間の判断に合った創造性を理解・評価することが困難である問題に対処するため、新たにCreBenchを提案します。CreBenchは、創造的アイデアからプロセス、製品に至るまでの複数の次元をカバーする評価基準と、2.2Kの多様な情報源から取得したデータ、79.2Kの人間のフィードバック、4.7Mの多様な指示を含むCreMIT（Creativity Multimodal Instruction Tuning）データセットの2つの主要コンポーネントから構成されています。特に、GPTを活用して人間のフィードバックを洗練させ、多様な創造性関連のクエリに対応できる能力を強化します。CreBenchによって構築されたCreExpertモデルは、最新のMLLMと比較して人間の創造性評価と優れた整合性を示し、多様な創造性評価の専門的なモデルとして機能します。