本研究では、GPT-4.1およびGPT-5によって生成された合理的根拠を用いた自動エッセイ採点の有効性を探ります。具体的には、2012年のKaggle ASAPデータからのPrompt 6エッセイを用いて、エッセイに基づく採点と合理的根拠に基づく採点を比較しました。結果として、エッセイ基準の採点は、合理的根拠に基づく採点よりも高いQuadratic Weighted Kappa (QWK)を示し、一般的にパフォーマンスが優れていました。しかし、合理的根拠に基づく採点は、クラスの不均衡が影響するスコア0に関してF1スコアの精度が高い結果を出しました。さらに、エッセイ基準の採点モデルのアンサンブルは、特定のスコアレベルと全スコアレベルの許容精度を向上させました。最終的に、エッセイ基準の採点と両方の合理的根拠に基づく採点のアンサンブルが、文献で報告された0.848に対し、0.870の最高の採点精度を達成しました。