本記事では、テキストベースのインタラクティブフィクションゲーム『Infocom』の25作品を基にした新たなベンチマーク「TextQuests」を紹介します。このベンチマークは、大規模言語モデル(LLMs)が複雑で探索的な環境でどれだけ効果的に独立して行動できるかを評価することを目的としています。TextQuestsは、長期的な計画を立てて実行し、経験から学ぶ能力を要求するゲームです。評価は、公式のヒントを利用可能とする「With Clues」と、利用不可の「No Clues」の二つの条件下で行われ、進捗や倫理的行動を測定する指標が使われます。特に、長い文脈の処理が求められ、その結果、既存のモデルは過去の情報について誤った判断をする傾向があることが観察されました。