この記事では、複数選択肢形式の質問応答(MCQA)が現代のマルチモーダル言語モデルの評価や強化ファインチューニング(RFT)にどのように使用されているかを考察しています。MCQAの形式は自動検証を容易にしますが、選択肢からのシグナル漏れが正確性メトリクスを不 reliableにし、RFT中に答えを推測する行動を促進する可能性があります。そこで著者らは、ReVeL(Rewrite and Verify by LLM)というフレームワークを提案し、MCQAをオープン形式の質問に変換し、正当化可能な回答を可能な限り保持します。このフレームワークは、異なる回答タイプに応じて質問を分類し、異なる書き直しおよび検証スキームを適用します。ReVeLに基づくトレーニングでは、20,000のMCQA例を変換してQwen2.5-VLモデルをファインチューニングした結果、MCQAの試験での適合率を維持しつつ、オープンQAの精度を約6ポイント向上させました。また評価においては、MCQAベンチマークでのスコア過大評価を最大20ポイント明らかにし、評価の正確性を改善し、コストと待機時間を削減しました。