この記事では、深層学習に基づく自動エッセイスコアリング(AES)システムの進展とその解釈の難しさについて論じています。著者たちは、これらのスコアリングモデルの「ブラックボックス」性を理解するための研究が不足していると指摘し、最近の研究が自動スコアリングシステムが常識的な対抗サンプルに対して脆弱であることを示していると述べています。スコアリングは多様な要素を含むため、モデルがこれらのすべてのモダリティで検証される必要があります。研究の結果、スコアリングシステムはエッセイを自然な文の流れとして捉えず、特定の重要な単語に過度に依存していることが判明しました。文の流れや文法を損なうような重要単語の周囲の文脈が取り除かれても、予測スコアにはほとんど影響がないことがあります。また、モデルが世界知識や常識に基づいていないため、「世界は平らである」といった虚偽の事実を加えることがスコアを逆に上昇させることも示されました。