LLMsを用いた教育の測定

教育における教育質の客観的かつスケーラブルな測定は常に課題とされています。本論文では、大規模言語モデル（LLMs）を活用し、従来のサブワードトークナイゼーションよりも教室のトランスクリプトに適した文レベルの埋め込みを基にしたカスタムLLMsを使用しています。5種類の文埋め込みを系統的に評価し、その結果、専門家による評価を超える性能を達成しました。分析の結果、評価のバリエーションが単独の発話ではなく、レッスンレベルの特徴に起因することが示され、単一ターンの注釈パラダイムの十分性に疑問を投げかけています。さらに、集計モデルスコアは教師の付加価値測定と一致し、生徒の学習に関連する特徴を捉えている可能性が示唆されています。ただし、個々の項目レベルではこのトレンドは成立せず、モデルが有用な信号を学習しているものの、完全な一般化には至っていないことも指摘されています。この研究は、AI駆動の教育測定に対する新しい有力な方法論を確立し、教育者の発展に向けたスケーラブルで信頼性のあるフィードバックを提供する道を開いています。