arXiv cs.LG

トランスフォーマーはカーネルガイド相互情報量を通じて有向非巡回グラフを確実に学習する

Transformers Provably Learn Directed Acyclic Graphs via Kernel-Guided Mutual Information

http://arxiv.org/abs/2510.25542v1


実世界のデータに潜むグラフ構造を明らかにすることは、科学の広範な分野で重要な課題です。トランスフォーマーモデルは、注意機構を活用することで複雑な依存関係を捕捉する能力において実証的成功を収めていますが、これまで理論的な理解は限られたグラフ構造にとどまっていました。本研究では、複数の親ノードを持つ一般的な有向非巡回グラフ(DAG)への拡張に挑戦し、新たにカーネルガイド相互情報量(KG-MI)という情報理論的な指標を導入しました。KG-MIは多頭注意フレームワークと結びつけられており、各ヘッドが異なる親子依存性をモデル化することが可能です。実験結果は理論的な発見を裏付け、学習された注意スコアが真の隣接行列を正確に反映し、基盤となるグラフ構造を回復することを証明しています。