本研究では、大規模言語モデル(LLMs)の評価手法に関する新しい枠組みを提案しています。既存の評価手法は、質問応答タスクにおいて確率に基づいて最終的な回答を選択することが一般的ですが、推論を必要とするモデルにおいては、回答抽出法が重要な役割を果たすことが明らかになりました。研究結果は、推論モデルの性能と最終的な回答分布が、使用される回答抽出アルゴリズムに非常に敏感であることを示しています。この問題を解決するために提案された「回答再生成」という枠組みでは、追加のモデル推論を使用し、元の入力と出力を「回答:」というプロンプトで前置きします。これにより、再生成された出力から最終的な回答が選択または抽出されます。この手法は、数学の問題やオープンエンドの質問応答タスクに応じて適用され、より信頼性の高いモデル評価を提供する可能性があります。