この記事では、長文コンテキストを理解する大規模言語モデル(LLM)の評価基準として新たに提案された「AcademicEval」について述べています。従来のベンチマークは、厳密なコンテキスト長、手間のかかるアノテーション、ラベル漏れの問題に制約されていました。これに対抗して、AcademicEvalは、arXivの論文を活用し、タイトル、要約、序論、関連研究など、手動でのラベリングを必要としない長文の学術的ライティングタスクを導入します。また、高品質かつ専門家によって選ばれた少数ショットのデモを取り入れることで、柔軟なコンテキスト長を実現しています。評価結果によれば、LLMは階層的抽象レベルのタスクに弱く、長い少数ショットのデモで性能が低下する傾向があることが示されており、これが観察された課題を浮き彫りにしています。