InfiMed-ORBIT: ルーブリックベースの漸進的トレーニングによるオープンエンドな複雑なタスクにおけるLLMの整合

InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

本論文では、オープンエンドな複雑なタスク向けに、ルーブリックに基づく漸進的トレーニングフレームワーク「ORBIT」を提案します。大規模言語モデル（LLM）は、特に数学やコードのように報酬がプログラム的に検証可能な領域で強化学習（RL）を介して顕著な進展を示しましたが、創造的な執筆や科学的推論、医療相談といったオープンエンドな領域では、曖昧で主観的な報酬により挑戦が残ります。本研究では、LLMを医療対話に特化して訓練するためのルーブリックを動的に生成し、このルーブリックを用いて学習を導く手法を採用しています。具体的には、外部の医療知識に依存せず、ルーブリックによるフィードバックを利用して学習を進め、Qwen3-4B-InstructモデルにおいてHealthBench-Hardベンチマークを2kサンプルのみで7.0から27.2に向上させる成果を得ました。この研究は、複雑でオープンエンドなタスクにおけるLLMの進展におけるルーブリックベースのフィードバックがスケーラブルな戦略であることを強調しています。