視覚的質問応答の安定性に疑問を呈する

視覚言語モデル（VLM）は顕著な進展を遂げているものの、ごく小さな入力変化に対する信頼性が不明確なままです。本研究では、VLMの視覚的およびテキストの小さな変化に対するロバスト性を体系的に評価しました。具体的には、ピクセルレベルのシフトや、軽微な幾何変換、リサイズ、言い換え、多言語での書き換えなど、意味を損なわない変更に対する感度を調査しました。実験の結果、最新のVLMはこのような微小な変化に対し非常に敏感であり、多くのサンプルが少なくとも一つの変更によって予測される答えが変わることが分かりました。また、安定したサンプルは正しい答えを導く可能性が高く、オープンソースモデルの安定性パターンを利用することで、大規模なクローズドソースモデルの正確性を高精度に予測できることも示しました。これにより、現在のVLMには根本的な脆弱性が存在することが明らかになり、敵対的変化を超えた堅牢性評価の必要性が強調されました。