本論文では、Oolongという新たなベンチマークを提案し、長文コンテキストによる推論タスクを評価しています。モデルのコンテキスト長が拡大する中、モデルが全てのコンテキストを効果的に利用できているかが懸念されています。これまでは、コンテキストの特定部分からの情報取得に依存した評価が多かったですが、Oolongでは個々のテキストチャンクを分析し、その結果を集約して質問に答えることを求めます。Oolongは自然で合成的なタスクを含むOolong-synthと、実際の会話データを用いるOolong-realの2つのタスクセットで構成されています。Oolongを通じて、モデルは大量のデータに基づく分類や計数、ならびに時間的およびユーザー関係の推論を行う必要があります。しかし、最新のモデルでさえOolongに対しては50%未満の精度しか達成できていません。データと評価基盤も公開され、さらなるモデル開発が促されています。