HuggingFace

TRLにおけるビジョン・ランゲージモデルの整合性

Vision Language Model Alignment in TRL ⚡️

https://huggingface.co/blog/trl-vlm-alignment


ビジョン・ランゲージモデル(VLM)の進化が進む中で、これらを人間の好みに整合させる重要性が強調されています。記事では、TRLにおける新しい手法として、混合好み最適化(MPO)、グループ相対ポリシー最適化(GRPO)、およびグループシーケンスポリシー最適化(GSPO)が紹介されています。これらは、従来のペア比較による好み最適化(DPO)の限界を超え、好みデータからの豊富な信号を抽出し、現代のVLMとの適合性を向上させるものです。また、強化学習法としてのReinforce Leave One Out(RLOO)や、オンラインDPOも導入され、より効率的でスケーラブルなマルチモーダル整合性を実現します。最終的には、VLMのための監視付きファインチューニングのネイティブサポートが追加され、迅速な導入を可能にします。