本論文では、Retrieval-augmented generation(RAG)システムの制約を解消するためのオンライン学習フレームワーク「Dynamic Memory Alignment(DMA)」を提案しています。従来のRAGシステムは静的な情報取得に依存し、変化する意図や内容の適応が難しかったが、DMAは多層次の人間フィードバックを組織化し、インタラクティブな場面でのランク合わせを実現します。DMAは、文書、リスト、応答レベルの信号を一貫した学習パイプラインへまとめ、ポイントおよびリストワイズランカーの監視学習、応答レベルの好みによるポリシー最適化、軽量スコアラーへの知識蒸留を行います。評価プロトコルには、オンラインのA/Bテストと少数ショットのオフラインテストが含まれ、DMAは人間の関与を大幅に向上させると同時に、会話QA分野での顕著な成果も示しています。結果として、DMAはRAGのフィードバック駆動型リアルタイム適応において、基盤能力を損なうことなく実用的なアプローチとされています。