HierRouter：強化学習による専門化された大規模言語モデルの協調ルーティング

HierRouter: Coordinated Routing of Specialized Large Language Models via Reinforcement Learning

大規模言語モデル（LLM）は多くのタスクで最先端の性能を発揮しますが、その計算リソースとメモリコストが高いため、リソース制約やリアルタイム環境での利用が難しいです。これに対処するために提案されたのがHierRouterであり、専門化された軽量の言語モデルから動的に推論パイプラインを組み立てる階層的ルーティングアプローチです。この手法は有限時間ホライゾンのマルコフ決定過程（MDP）として定式化され、プロキシマルポリシー最適化（PPO）に基づく強化学習エージェントが多段階推論の各ステージでどのモデルを起動するかを選択します。エージェントは進化する文脈と累積コストに基づいて文脈に応じたルーティングを行います。実験の結果、個別のモデルを使う場合に比べて応答品質が最大2.4倍向上し、追加の推論コストも最小限に抑えられることが示されました。この結果は、コスト効率が良く高性能なLLM推論のための階層的ルーティングの可能性を浮き彫りにしています。