大規模言語モデル(LLM)は、さまざまなアプリケーションで評価者として一般的に使用されていますが、その結果の信頼性は課題となっています。この研究では、評価スコアを指定された範囲から直接割り当てる際のLLMのバイアスについて議論し、特にスコア範囲バイアスが問題であることを示しています。このバイアスは、LLMの出力が事前に定義されたスコア範囲に対して非常に敏感であり、最適なスコア範囲の探索を妨げるものであることが明らかとなりました。また、同様のバイアスは同一モデルファミリー内でも存在することが確認されました。対照的なデコーディング技術を使用することで、このバイアスを軽減し、人間の判断とのSpearman相関において平均で最大11.3%の相対的改善を達成しました。