強化学習による物理オリンピックの達成

本研究では、大規模言語モデル（LLM）の進展を利用して、物理に特化した強化学習（RL）モデルのP1シリーズを開発しました。このモデルは、特にオリンピックレベルの物理問題を解く能力に優れています。P1-235B-A22Bは、2025年国際物理オリンピアード（IPhO）で金メダルを獲得した初のオープンソースモデルであり、2024/2025年の国際および地域の物理競技で12個の金メダルを勝ち取りました。さらに、P1-30B-A3BもIPhO 2025で銀メダルを受賞しました。P1モデルは、物理に関するタスクに加え、数学やコーディングなどの他の推論タスクでも優れたパフォーマンスを示し、非常に高い汎用性を持っています。この研究は、物理学の研究を進展させることを目指しています。