DEPO: LLMエージェントのための二重効率選好最適化

本研究では、LLM（大規模言語モデル）エージェントの判断力と意思決定能力の向上に伴い、推論の豊かさが思考の連鎖（CoT）の長さを増加させ、実世界のインタラクション効率に影響を与えるという問題に取り組んでいます。そこで、提案される「二重効率」の概念は、（i）手順レベルの効率（各ステップあたりのトークン数の最小化）と（ii）軌跡レベルの効率（タスク完了までのステップ数の最小化）から成ります。この定義を基に、DEPO（Dual-Efficiency Preference Optimization）という手法を開発し、簡潔な応答と少ないアクションステップの双方を報酬として評価します。実験結果は、トークン使用量を最大60.9%削減し、ステップ数を最大26.9%減少させ、パフォーマンスが最大29.3%向上することを示しました。また、この手法は異なるドメインの数学ベンチマークにも適用可能で、データの25%で訓練しても効率性が維持されることが確認されました。