トランスフォーマーを超えたインコンテキスト学習の理解: 状態空間とハイブリッドアーキテクチャの調査

Understanding In-Context Learning Beyond Transformers: An Investigation of State Space and Hybrid Architectures

この記事では、トランスフォーマー、状態空間、そしてハイブリッドな大規模言語モデルにおけるインコンテキスト学習（ICL）を深く評価しています。知識ベースのICLタスクの2つのカテゴリにわたり、行動プロービングと介入に基づく手法を組み合わせて、異なるアーキテクチャのLLMはタスク性能において類似した行動を示す一方で、その内部構造は異なる可能性があることを発見しました。特に、ICLに関与する関数ベクトル（FVs）が自己注意層とMamba層に主に存在し、Mamba2はFVsとは異なるメカニズムを使用してICLを実行する可能性があると考察されています。FVsはパラメトリックな知識の取得において特に重要ですが、文脈的な知識理解にはそれほど重要ではないことも示されています。これにより、アーキテクチャやタスクの種類に対する理解が深まるとともに、行動分析とメカニズム分析の組み合わせの重要性が強調されています。