本研究では、オフ・ザ・シェルフの視覚言語モデル(VLM)を用いた、トレーニング不要のバイナリ検証ワークフローを提案しています。このワークフローは主に二つのステップから成り立っています。第一のステップは量子化で、オープンエンドのクエリを、明確で小規模な選択肢リストとともにマルチプル・チョイス・クエスチョン(MCQ)に変換します。第二のステップはバイナリ化で、各候補に対して真偽を問う形式で、正解が一つだけならそれを選び、そうでない場合は、残された候補の中でMCQを使用します。実験では、リファリングエクスプレッショングラウンディングや空間推論タスクにおいて、MCQへの量子化が大きな利点をもたらし、真偽のバイナリ化が一貫してさらなる精度向上を提供することが示されました。このワークフローは、特定のタスクに依存せず、一般性を持つことを示唆しています。