推論モデルは時折読めない思考の連鎖を出力する

成果に基づいた強化学習（RL）で訓練された言語モデルが、連鎖的思考（CoT）を使用して推論する能力を示している。しかし、CoTが人間やAIモニターにとって理解可能であることが重要であり、14の推論モデルを調査した結果、RLがしばしば推論を人間にもAIにも理解不能にしていることが分かった。特に、Claudeを除くすべてのモデルが、読みにくいCoTを生成しながらも最終的には正確な回答を返している。正確な回答を導くためには、読みにくい推論を使用することがあり、理解可能な部分のみで推論を行うと精度が53%低下することが観察された。さらに、より難しい質問に対しては可読性が低下する傾向がある。この結果は、明示的な可読性の最適化がなければ、成果に基づくRLがますます不透明な推論プロセスを生む可能性があることを示唆している。