伝統的なテキストおよびビジュアル質問応答の評価指標であるROUGEやMETEOR、Exact Match(EM)は、n-gramベースの語彙的類似性に重点を置いており、正確な評価に必要な深い意味の理解を見逃すことが多いです。本論文では、これらの限界を克服するために、文レベルの意味理解とキーワードレベルの意味理解を組み合わせた新しい指標SMILE(Semantic Metric Integrating Lexical Exactness)を提案しています。この指標は語彙的精度と意味的関連性のバランスを取ることができ、テキスト、画像、動画のQAタスクにおける大規模なベンチマークでも人間の判断と高い相関を示しています。SMILEは計算負荷が軽く、語彙的評価と意味的評価のギャップを埋めることができます。