洗練と整合性: VQAにおけるマルチエージェント相互作用による信頼度のキャリブレーション

本論文では、ビジュアル質問応答（VQA）におけるAIシステムの信頼度キャリブレーションに焦点を当て、特に過信問題に対処するための新しいアプローチであるAlignVQAを提案しています。このフレームワークでは、異なる専門的なビジョン・ランゲージモデル（VLM）が候補となる回答を生成し、一般的なエージェントがこれらの提案を批評、洗練、集約する二段階の相互作用を通じて信頼度を調整します。この議論プロセスにより、モデルの実際の予測性能をより正確に反映する信頼度推定が得られます。また、専門エージェントのキャリブレーション誤差の上限を最小化する新しい微分可能なキャリブレーション対応の損失関数（aligncal）を導入し、各エージェントの信頼度推定の精度を向上させます。実験結果は、このアプローチの有効性を示しており、キャリブレーションの不一致を大幅に減少させることが確認されています。