OG-Rank: 不確実性と報酬トレンドに基づく適応探索による迅速かつ遅延なランク学習

OG-Rank: Learning to Rank Fast and Slow with Uncertainty and Reward-Trend Guided Adaptive Exploration

この記事では、医療現場でのリアルタイムランク付けシステムの必要性から発展した「OG-Rank」というモデルを紹介しています。この単一デコーダーモデルは、プールされた初トークンスコアリング信号と不確実性ゲートによる説明ステップを結合しており、全候補を一度のパスでスコアリングし、リストが本当にあいまいな場合にのみ構造化された簡潔な理由を生成します。OG-Rankは、難易度の高いケースに多くのトレーニングを割くカリキュラムに基づいており、効果的な結果を出しています。実験では、デフォルトで迅速にランクし、必要な時に説明するというアプローチが、選択タスク全般に広く適用できる有用なプロトコルであることが示されています。このシステムは、配置や予算計画の簡素化にも寄与しています。