この記事では、大規模言語モデル(LLMs)の出力の事実関係に関する評価手法であるMAD-Factを提案しています。特に医療、法律、教育といった高リスク領域において、LLMsの出力が正確であることは重要です。短文評価法が長文の複雑な論理や視点の絡み合いによって不十分となることから、著者たちは大規模な長文データセットとマルチエージェントによる検証メカニズムを組み合わせた体系的手法を開発しました。特に、中国語向けの長文事実関係データセット「LongHalluQA」を構築し、事実の重要性を階層化した新しい評価方法を導入しています。実験により、大きなLLMは高い事実の一貫性を維持しながら、国内モデルが中国語コンテンツに優れていることが示されました。この研究は、長文のLLM出力の事実的信頼性を評価し向上させるための構造化されたフレームワークを提供しています。