本論文では、大規模言語モデル(LLM)が人間の行動をシミュレートする能力を評価するための新しいベンチマーク「SimBench」が紹介されています。現在の評価方法は多様で断片的であり、結果が比較可能でないため、SimBenchは20の異なるデータセットを統一し、道徳的決定や経済的選択に関するタスクを含む大規模な国際参加者プールを対象にしています。このベンチマークにより、LLMシミュレーションの成功や失敗の要因を探るための基盤が提供されます。研究結果によれば、現行の最良のLLMは限られたシミュレーション能力を持っており(スコア40.80/100)、モデルサイズの増加に伴い性能は向上しますが、推論時の計算能力の向上はシミュレーション能力には寄与しないことが示されています。また、特定のデモグラフィックグループのシミュレーションに苦労していることも指摘されています。この研究は、より信頼性の高いLLMシミュレーターの開発を促進することを目指しています。