大規模言語モデルにおける新たな内面的意識の出現

本研究では、大規模言語モデルが自身の内部状態について内省的に考えることができるかを探ります。従来、内省的意識の真偽は会話だけでは判断しにくいですが、既知の概念をモデルの活性化に注入して、その影響を測定することでこの課題に取り組みました。結果として、特定のシナリオにおいてモデルが注入された概念を認識し、正確に識別できる能力を示すことがわかりました。また、モデルは過去の内部表現を想起し、生のテキスト入力と区別する能力を示しました。特に、最も高性能なClaude Opus 4および4.1は内面的意識が最も高く、他のモデルとの傾向は複雑でトレーニング後の戦略に敏感であることが確認されました。さらに、モデルが自らの内部表現を明示的に制御できるかも検討し、指示やインセンティブによって概念を「考える」ように活性化を調整できることがわかりました。現在の言語モデルには機能的な内面的意識があることが示唆されていますが、これには不安定さが伴い、今後の能力向上により進展が期待されます。