arXiv cs.AI

人間とAIの相補性:強化監視の目標

Human-AI Complementarity: A Goal for Amplified Oversight

http://arxiv.org/abs/2510.26518v1


この記事では、人間のフィードバックがAIシステムを人間の価値に align(調整)する上で重要であることを論じています。AIの能力が向上するにつれて、特に複雑なタスクに取り組む際の品質と安全性の確認が一層困難になっています。研究では、AIによる出力の事実確認を人間の監視を向上させる方法を探求しています。AIの評価と人間の評価を組み合わせることで、どちらか一方に頼るよりも良い結果が得られることが分かりました。AIの事実確認アシスタントを人間に提供することで、精度が向上しますが、アシスタンスの内容が重要です。AIの説明や自信、ラベルを表示すると過信を招く可能性が高まりますが、検索結果や証拠を示すだけで適切な信頼を育むことができます。この結果は、AIシステムの監視において人間とAIを組み合わせることの課題である「強化監視」に重要な示唆を与えます。