この記事では、「Gistify」というタスクを提案しています。このタスクでは、コーディングLLM(大規模言語モデル)が、特定の機能を再現するために、必要な最小限の自己完結型ファイルを作成する必要があります。LLMはフルコードベースへの完全なアクセスが与えられ、与えられたエントリポイント(例: Pythonコマンド)を用いて、同じコマンドが完全なコードベースで実行されたときの出力を再現するファイルを生成します。この成功には、コードベースの構造理解、実行フローの正確なモデル化、そして大規模なコード修正を生成する能力が求められます。研究結果によると、現在の最先端モデルは特に長い実行トレースを持つGistifyタスクを信頼性高く解決するのが難しいことが分かりました。