arXiv cs.AI

Gistify!ランタイム実行によるコードベースレベルの理解

Gistify! Codebase-Level Understanding via Runtime Execution

http://arxiv.org/abs/2510.26790v1


この記事では、「Gistify」というタスクを提案しています。このタスクでは、コーディングLLM(大規模言語モデル)が、特定の機能を再現するために、必要な最小限の自己完結型ファイルを作成する必要があります。LLMはフルコードベースへの完全なアクセスが与えられ、与えられたエントリポイント(例: Pythonコマンド)を用いて、同じコマンドが完全なコードベースで実行されたときの出力を再現するファイルを生成します。この成功には、コードベースの構造理解、実行フローの正確なモデル化、そして大規模なコード修正を生成する能力が求められます。研究結果によると、現在の最先端モデルは特に長い実行トレースを持つGistifyタスクを信頼性高く解決するのが難しいことが分かりました。