複数選択肢を超えて：堅牢な評価と検証可能な推論トレーニングを統合するハイブリッドフレームワーク

Beyond Multiple Choice: A Hybrid Framework for Unifying Robust Evaluation and Verifiable Reasoning Training

この記事では、複数選択肢形式の質問応答（MCQA）が現代のマルチモーダル言語モデルの評価や強化ファインチューニング（RFT）にどのように使用されているかを考察しています。MCQAの形式は自動検証を容易にしますが、選択肢からのシグナル漏れが正確性メトリクスを不 reliableにし、RFT中に答えを推測する行動を促進する可能性があります。そこで著者らは、ReVeL（Rewrite and Verify by LLM）というフレームワークを提案し、MCQAをオープン形式の質問に変換し、正当化可能な回答を可能な限り保持します。このフレームワークは、異なる回答タイプに応じて質問を分類し、異なる書き直しおよび検証スキームを適用します。ReVeLに基づくトレーニングでは、20,000のMCQA例を変換してQwen2.5-VLモデルをファインチューニングした結果、MCQAの試験での適合率を維持しつつ、オープンQAの精度を約6ポイント向上させました。また評価においては、MCQAベンチマークでのスコア過大評価を最大20ポイント明らかにし、評価の正確性を改善し、コストと待機時間を削減しました。