本稿は、強化学習における人間のフィードバック(RLHF)を中心に、近年の大規模言語モデル(LLMs)との整合性に関する新たな研究の前線を調査したものです。従来のテキストベースの手法を超え、マルチモーダル整合性、文化的公正、低遅延最適化といった重要なギャップに焦点を当てています。基礎となるアルゴリズム(PPO、DPO、GRPOなど)のレビューから始め、最新の革新について詳細な分析を提供し、これらの技術の比較を行います。また、課題を列挙することで、より堅牢で効率的、かつ公平なAIシステムを構築するための研究者への重要なロードマップを提供します。