推論の共通言語: 多言語AIにとっての両刃の剣

この記事では、大規模推論モデル（LRM）の多言語における推論能力について探討されています。LRMは数学的、科学的な質問応答タスクにおいて優れた性能を発揮しますが、非英語の質問に対しては英語での推論にデフォルトで切り替わることが多く、これが解釈性や言語的・文化的ニュアンスの取り扱いに関する懸念を引き起こしています。著者たちは、LRMの英語と質問の言語での推論を比較評価し、最終的な回答の正確性や推論過程における認知的特徴を分析しました。結果、英語での推論が高い正確度を示し、タスクが複雑になるにつれてその差が拡大することが分かりました。しかし、英語中心の戦略には「翻訳の迷子」と呼ばれる重要な失敗モードがあり、翻訳ステップが誤りを引き起こす可能性があることも指摘されています。