TRLにおけるビジョン・ランゲージモデルの整合性

ビジョン・ランゲージモデル（VLM）の進化が進む中で、これらを人間の好みに整合させる重要性が強調されています。記事では、TRLにおける新しい手法として、混合好み最適化（MPO）、グループ相対ポリシー最適化（GRPO）、およびグループシーケンスポリシー最適化（GSPO）が紹介されています。これらは、従来のペア比較による好み最適化（DPO）の限界を超え、好みデータからの豊富な信号を抽出し、現代のVLMとの適合性を向上させるものです。また、強化学習法としてのReinforce Leave One Out（RLOO）や、オンラインDPOも導入され、より効率的でスケーラブルなマルチモーダル整合性を実現します。最終的には、VLMのための監視付きファインチューニングのネイティブサポートが追加され、迅速な導入を可能にします。