LongWeaveは、長文生成における現実世界の関連性と検証可能性を結ぶ新しいベンチマークです。従来のベンチマークでは、長文生成を評価する際に現実世界の複雑さを無視したり、検証が難しい指標に頼ることが多いですが、LongWeaveはConstraint-Verifier Evaluation(CoV-Eval)という手法を導入しています。この手法では、検証可能なターゲットを定義した上で、それに基づいたクエリやテキスト素材をシステマティックに生成し、タスクが現実的かつ客観的に評価できるようにしています。これにより、長文生成モデルが複雑な現実世界の制約をどれだけ満たせるかを厳密に評価することが可能になります。評価結果によると、最先端の大規模言語モデルでも、現実世界の複雑性や出力の長さが増すと大きな課題に直面することが示されています。