EduAdaptは、K-12教育における大規模言語モデル(LLM)の学年適応性を評価するためのベンチマークデータセットです。主に、1年生から12年生までの9つの科学科目にわたる約48,000の学年ラベル付き質問応答ペアを含み、4つの学年レベルに分類されています。多様なオープンソースのLLMを評価した結果、大きなモデルは一般的には性能が良いものの、低学年の学生(1〜5年生)に対して適切な応答を生成するのに苦労していることがわかりました。このデータセットは、LLMの教育目的での能力を測定する初のフレームワークを提供し、発達に応じた教育AIシステムの向上を目指しています。