本論文では、オープンエンドな複雑なタスク向けに、ルーブリックに基づく漸進的トレーニングフレームワーク「ORBIT」を提案します。大規模言語モデル(LLM)は、特に数学やコードのように報酬がプログラム的に検証可能な領域で強化学習(RL)を介して顕著な進展を示しましたが、創造的な執筆や科学的推論、医療相談といったオープンエンドな領域では、曖昧で主観的な報酬により挑戦が残ります。本研究では、LLMを医療対話に特化して訓練するためのルーブリックを動的に生成し、このルーブリックを用いて学習を導く手法を採用しています。具体的には、外部の医療知識に依存せず、ルーブリックによるフィードバックを利用して学習を進め、Qwen3-4B-InstructモデルにおいてHealthBench-Hardベンチマークを2kサンプルのみで7.0から27.2に向上させる成果を得ました。この研究は、複雑でオープンエンドなタスクにおけるLLMの進展におけるルーブリックベースのフィードバックがスケーラブルな戦略であることを強調しています。