Gistify！ランタイム実行によるコードベースレベルの理解

この記事では、「Gistify」というタスクを提案しています。このタスクでは、コーディングLLM（大規模言語モデル）が、特定の機能を再現するために、必要な最小限の自己完結型ファイルを作成する必要があります。LLMはフルコードベースへの完全なアクセスが与えられ、与えられたエントリポイント（例: Pythonコマンド）を用いて、同じコマンドが完全なコードベースで実行されたときの出力を再現するファイルを生成します。この成功には、コードベースの構造理解、実行フローの正確なモデル化、そして大規模なコード修正を生成する能力が求められます。研究結果によると、現在の最先端モデルは特に長い実行トレースを持つGistifyタスクを信頼性高く解決するのが難しいことが分かりました。