本記事では、データセットバイアスの特定と解析を行うための新しいフレームワーク「ConceptScope」を紹介しています。データポイントが特定の概念に偏る現象は機械学習のデータセットに広く見られますが、その特定は困難でした。本研究では、視覚基盤モデルの表現に基づいて訓練されたスパースオートエンコーダを使用して、人間が解釈可能な概念を発見し定量化する手法を提案しています。ConceptScopeは、ターゲット、コンテキスト、バイスタイプに分類された概念を基に、データセットの特徴付け、バイアスの特定、概念ベースのサブグループを用いた頑健性評価を可能にします。また、概念の活性化により意味的に意味のある画像領域と整合する空間的帰属を示すことを確認しました。この手法はデータセット監査やモデル診断のための実用的なツールとして機能します。