BOTS: ベイズオンラインタスク選択のための統一フレームワーク（LLM 強化ファインチューニング）

BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning

本記事では、BOTS（Bayesian Online Task Selection）というフレームワークを提案します。これは、強化ファインチューニング（RFT）におけるタスク選択の効率を向上させるために設計されています。既存のタスク選択法は、コストや適応性の面で課題があり、無駄な計算を生むことが多いです。BOTSは、タスクの難易度に関する事後推定を維持し、選択されたタスクに対する明示的証拠と未選択タスクに対する暗黙的証拠を統合します。Thompson samplingにより、探索と利用のバランスを取っています。また、軽量な補間ベースのプラグインを用いることで、追加的なロールアウトなしで難易度を見積もります。実験結果から、BOTSはデータ効率とパフォーマンスを向上させることが示されており、動的なタスク選択に対する実用的かつ拡張可能な解決策を提供します。