本記事では、異なる粒度での意思決定が求められる現実世界のタスクに対し、ReCode(Recursive Code Generation)という新たなパラダイムを提案しています。現在の大規模言語モデル(LLM)ベースのエージェントは、高次の計画と低次の行動を厳密に区別しているため、流動的に作業する能力が不足しています。ReCodeは、計画と行動を単一のコード表現内で統一し、高レベルの計画を抽象的なプレースホルダ関数として扱い、より細かいサブ関数へ再帰的に分解します。この再帰的アプローチにより、計画と行動の間の厳格な境界が解消され、エージェントは意思決定粒度を動的に制御できるようになります。実験では、ReCodeが先行研究と比較して推論性能において優れた結果を示し、トレーニングにおいても高いデータ効率を発揮することが確認されました。この研究は、計画と行動の統一が普遍的な粒度制御を実現する強力で効果的なアプローチであることを示しています。