この記事では、新たなアルゴリズムNeighbor GRPOが提案されており、これは画像や動画生成モデルの人間の好みに基づく整合性を高めるために使われます。既存のGRPO方法が従来の常微分方程式(ODE)に確率的要素を導入することで流れモデルに適用できない課題に直面していたことを踏まえ、著者たちは従来の方法を距離最適化の観点から再解釈しました。これに基づき、Neighbor GRPOはODEの初期ノイズ条件を変化させ、多様な候補軌道を生成し、ソフトマックス距離に基づくポリシーでモデルを最適化します。このアプローチは、従来のODEサンプリングの効率性や高次ソルバーとの互換性を維持しつつ、訓練コストや収束速度、生成品質において従来のSDEベースの手法を凌駕することが実験で示されています。