この記事では、伝統中国医学(TCM)の知識システムに基づいて、大規模言語モデル(LLM)の性能を向上させるための新たなアプローチとして、集団相対ポリシー最適化(GRPO)を利用したLadder-baseというモデルが紹介されています。従来のTCM向けLLMはスーパーバイズドファインチューニングにより進展を見せているものの、整合性、データの質、評価の一貫性において制約が存在しました。Ladder-baseは、Qwen2.5-7B-Instructを基盤として構築され、80%のデータをトレーニングに使用し、残りの20%を検証とテストに分けて利用します。このモデルは、GPT-4やGemini 2.5などの最先端の一般用LLMや、BenTsaoやHuatuoGPT2のような領域特化型モデルと比較して、優れた推論の指標を示しました。これらの結果は、GRPOが専門的な推論と整合したLLMを開発するための効果的な戦略であることを示唆しています。