arXiv cs.AI

ActivationReasoning: 潜在活性空間における論理的推論

ActivationReasoning: Logical Reasoning in Latent Activation Spaces

http://arxiv.org/abs/2510.18184v1


この記事では、ActivationReasoning(AR)というフレームワークが提案されています。大規模言語モデル(LLM)は流暢なテキスト生成に優れていますが、その内部の推論は不透明で制御が難しいとされています。著者たちは、スパースオートエンコーダ(SAE)を用いることで潜在的活動をより解釈可能にし、人間の概念に沿った特徴を明らかにしますが、これらの特徴は脆弱で受動的なため、体系的な推論やモデル制御のメカニズムは提供できませんでした。ARは、潜在空間に明示的な論理的推論を埋め込み、潜在概念の表現を辞書に整理し、推論時に概念を活性化して論理命題にマッピングします。さらに、これらの命題に論理ルールを適用することで高次構造を推論し、新しい概念を組み合わせ、モデルの挙動を制御します。ARは、複数の推論タスクにおいて堅牢にスケーリングし、抽象的かつ文脈に応じたタスクに一般化し、モデルの裏打ちを超えて移転可能であることが示されています。