本論文では、OrchDAGという合成データ生成パイプラインを提案します。これは、ツールの実行を制御可能な複雑性を持つ有向非巡回グラフ(DAG)としてモデル化し、ツールの多ターンインタラクションの複雑性を考慮しています。OrchDAGを使用して、モデルの性能をベンチマークし、強化学習のためのグラフベースの報酬を提案しています。実験結果から、このデータセットが課題を提供しつつも解決可能であることが示され、提案する報酬がGRPOスタイルのアルゴリズムと組み合わせることで効果的であることが示されました。これにより、マルチターンのツール使用におけるトポロジー構造やデータの複雑さを活用する重要性が強調されています。