バイナリ検索強化報酬が幻覚を軽減する

言語モデルはしばしばトレーニングデータで支えられていない事実に反する情報を生成する「外因的幻覚」という現象に悩まされます。本研究では、この問題に対処するために新しいバイナリ検索強化報酬（RAR）を用いたオンライン強化学習手法を提案します。このアプローチでは、モデルの出力が完全に正確な場合のみ報酬を与えるため、従来の連続報酬方式とは異なります。実験の結果、バイナリRARは幻覚率を39.3%削減し、短文の質問応答では「知らない」と出力する戦略を学ぶことで、誤答を44.4%（PopQA）および21.7%（GPQA）減少させました。また、この方法は指示に従ったタスクや数学、コード分野での性能を損なうことなく事実性の向上を実現しました。