集団相対ポリシー最適化を活用した伝統中国医学における大規模言語モデルの進展

Leveraging Group Relative Policy Optimization to Advance Large Language Models in Traditional Chinese Medicine

この記事では、伝統中国医学（TCM）の知識システムに基づいて、大規模言語モデル（LLM）の性能を向上させるための新たなアプローチとして、集団相対ポリシー最適化（GRPO）を利用したLadder-baseというモデルが紹介されています。従来のTCM向けLLMはスーパーバイズドファインチューニングにより進展を見せているものの、整合性、データの質、評価の一貫性において制約が存在しました。Ladder-baseは、Qwen2.5-7B-Instructを基盤として構築され、80%のデータをトレーニングに使用し、残りの20%を検証とテストに分けて利用します。このモデルは、GPT-4やGemini 2.5などの最先端の一般用LLMや、BenTsaoやHuatuoGPT2のような領域特化型モデルと比較して、優れた推論の指標を示しました。これらの結果は、GRPOが専門的な推論と整合したLLMを開発するための効果的な戦略であることを示唆しています。