この研究では、機械学習(ML)モデルがクレジットリスク評価においてどのように利用されているか、特に入力データの品質がモデルの効果に与える影響について検討されています。データに存在する欠損値、ノイズ、外れ値、ラベル誤りなどの複数のデータ品質の問題が、クレジットリスク評価に使用される機械学習モデルの予測精度に及ぼす影響が調査されました。オープンソースのデータセットを用い、10種類のよく使われるモデル(ランダムフォレスト、SVM、ロジスティック回帰など)の堅牢性を評価するため、データのコントロールされた腐敗をPucktrickライブラリを使用して行いました。実験の結果、データの劣化の性質や程度に応じて、モデルの堅牢性に顕著な違いが見られました。提案された方法論やツールは、データパイプラインの堅牢性を高めたい実務者や、データ中心のAIコンテキストでさらなる実験を行いたい研究者に実用的なサポートを提供します。