arXiv cs.AI

強化学習による物理オリンピックの達成

P1: Mastering Physics Olympiads with Reinforcement Learning

http://arxiv.org/abs/2511.13612v1


本研究では、大規模言語モデル(LLM)の進展を利用して、物理に特化した強化学習(RL)モデルのP1シリーズを開発しました。このモデルは、特にオリンピックレベルの物理問題を解く能力に優れています。P1-235B-A22Bは、2025年国際物理オリンピアード(IPhO)で金メダルを獲得した初のオープンソースモデルであり、2024/2025年の国際および地域の物理競技で12個の金メダルを勝ち取りました。さらに、P1-30B-A3BもIPhO 2025で銀メダルを受賞しました。P1モデルは、物理に関するタスクに加え、数学やコーディングなどの他の推論タスクでも優れたパフォーマンスを示し、非常に高い汎用性を持っています。この研究は、物理学の研究を進展させることを目指しています。