対象駆動型画像生成モデルは、アイデンティティ保持(忠実度)とプロンプト遵守(編集可能性)の間で基本的なトレードオフに直面しています。オンライン強化学習(RL)、特にGPROは有望な解決策を提供しますが、単純な線形報酬集約を適用すると競争的悪化が生じることが分かりました。これを克服するために、著者たちはCustomized-GRPOという新しいフレームワークを提案しました。このフレームワークは、対立する報酬信号を明示的にペナルティし、相乗的なものを強化する「Synergy-Aware Reward Shaping (SARS)」と、早期にはプロンプト遵守を、後期にはアイデンティティ保持を重視する「Time-Aware Dynamic Weighting (TDW)」という2つの革新を特徴としています。実験により、この方法が従来のGPROよりも優れた性能を発揮し、アイデンティティの特徴を保持しながら複雑なテキストプロンプトにも適切に応じた画像生成を実現することが示されました。