本記事では、強化学習におけるAIのフィードバックが不安定になる原因である判断の矛盾を解消するための新たなフレームワークを提案しています。従来の研究が判断の正確性に焦点を当ててきたのに対し、論理的一貫性、特に好みの循環等の問題に対処することが重要であるとしています。提案されたフレームワークは、判断の対立を定量化する新しい指標「Conflict Detection Rate(CDR)」と、政策最適化の前に循環を除去する「Deconflicted Graph Rewards(DGR)」の2つの主要な貢献から成り立ちます。DGRは初期の判断から好みのグラフを構築し、対立のない有向非循環グラフ(DAG)に変換することで、論理的に一貫した報酬信号を生成します。実験結果では、このフレームワークがトレーニングの安定性とモデルのパフォーマンスを大幅に向上させることが示されています。