本論文では、多言語モデル(LLM)の推論能力における幻覚の問題を解決するための新しいプロトコル「Multi-agent Undercover Gaming(MUG)」を提案しています。従来の「Multi-Agent Debate(MAD)」手法は、全てのエージェントが合理的で反省的であるという非現実的な前提に依存しており、幻覚を抱えるエージェントの存在下では効果的ではありません。MUGは、「誰が潜入者か?」といった社会的推論ゲームにインスパイアされ、反事実テストを活用して幻覚を抱えるエージェントを特定するプロセスを構築します。具体的には、参照画像を変更し、その変化をエージェントが正確に認識できるかを評価することで、幻覚を持つエージェントを同定し、堅牢な多モーダル推論を可能にします。これにより、事実確認や動的な証拠による推論、能動的な議論の促進が実現され、LLMにおける多モーダル推論の信頼性と効果が向上します。