遠隔監視におけるインスタンス選択のための後方正則化REINFORCE

本論文は、遠隔監視におけるインスタンス選択において、REINFORCEトレーニングプロセスの効率を向上させる新たな手法を提案しています。インスタンス選択を逐次的な意思決定プロセスとしてモデル化し、強化学習エージェントがインスタンスの価値を判断し、ノイズの少ない新しいバッグを構築する訓練を行います。従来のバイアスのない手法では、REINFORCEのトレーニングに多くの時間がかかることが一般的ですが、本研究では後方正則化（PR）を採用し、インスタンス選択においてドメイン特有のルールを統合しました。実験結果は、この手法がクリーンな遠隔監視データセットで訓練された関係分類器の性能とREINFORCEトレーニングの効率を著しく改善することを示しています。