LLMsは自らを評価する: 人間に合わせた評価のためのゲーム理論的フレームワーク

本論文では、ゲーム理論の原則を利用して大規模言語モデル（LLMs）の評価の新たな方法を模索しています。従来の評価手法が固定形式のタスクに依存し、LLMsの多様で主観的な行動を捉えきれない問題に対処するため、著者たちは自動相互評価を提案します。この手法では、LLMsが自らの出力を相互に評価し、これを人間の評価と比較することによりモデリングの精度を向上させます。ゲーム理論に基づく投票アルゴリズムを使用してピアレビューを集約し、モデルが生成した順位が人間の好みを反映しているかを調査します。実証結果は理論的予測と人間の評価の間に共通点と相違点を示し、相互評価の利点と限界に関する貴重な知見を提供しています。この研究は、相互評価、ゲーム理論的集約、人間に裏打ちされた検証を統合した初の試みとされています。