arXiv cs.LG

概念学習の観点からの説明可能なベンチマーキング

Explainable Benchmarking through the Lense of Concept Learning

http://arxiv.org/abs/2510.20439v1


この研究論文では、システム性能評価を自動的に説明可能な形で実施する新たな手法、すなわち「説明可能なベンチマーキング」を提案しています。従来の評価方法では、性能が少数の指標でまとめられるため、詳細な分析や見解の抽出が手作業でありバイアスを伴う結果が多かったですが、本提案は知識グラフに基づく質問応答システムに適用されます。新しい概念学習手法であるPruneCELを用いて、システムの性能に対する説明を自動生成することができます。実験の結果、PruneCELは既存の最先端の概念学習者に対して最大0.55ポイントのF1スコアで優れた性能を示しました。ユーザー調査の結果、参加者の80%が提供された説明に基づいてシステムの挙動を正確に予測できることが確認されました。