本研究では、多モーダル大規模言語モデル(MLLM)が判断者として強い可能性を示す一方で、出力スコアの適応がMLLMの生成的特性と整合しない問題を指摘しています。具体的には、判断は入力が構造化された要求セットを満たしているかを検証することに帰着され、著者たちはYOFOという手法を提案します。YOFOはテンプレートに条件付けられた方法であり、一度の推論ステップで各要求に対しバイナリ判断(はい/いいえ)を生成します。この設計により、スピードが飛躍的に向上し、解釈性も保持されます。実験結果として、YOFOは標準的な推薦データセットで最先端の結果を達成し、依存関係を考慮した分析をサポートすることが示されました。