この記事では、大規模言語モデル(LLMs)が人間の意思決定をどれだけ正確に模倣できるかを調査しています。研究者たちは、ゲーム理論に基づく実験のデジタルツインを開発し、機械の行動評価のための体系的なプロンプトとプロビングのフレームワークを導入しました。Llama、Mistral、Qwenの3つのオープンソースモデルをテストした結果、Llamaは人間に類似した協力パターンを高忠実度で再現し、Qwenはナッシュ均衡の予測と密接に一致しました。これにより、従来の人間テストのゲームを超えて、新たなゲーム設定についても検証可能な仮説を生成し登録することができました。研究は、適切に調整されたLLMsが人間の行動パターンを再現し、新たな実験空間を体系的に探求する可能性を示しており、社会的および行動科学における伝統的研究を補完する価値を提供します。