arXiv cs.AI

言語モデルは単射であり、したがって可逆である

Language Models are Injective and Hence Invertible

http://arxiv.org/abs/2510.15511v1


本論文では、トランスフォーマー言語モデルが入力シーケンスを連続的な表現にマッピングする際に単射性を保ち、情報損失なく入力を再構築できることを数学的に証明しています。非線形活性化や正規化の要素が非単射であるとは限らず、むしろ初期化時に単射性が保証され、トレーニングを通じてこの性質が維持されることが示されています。また、数十億の衝突テストを通じて、先進的な言語モデルにおいて衝突が発生しなかったことを実証しています。さらに、SipItアルゴリズムを提案し、隠れ活性化から正確な入力テキストを効率的に再構成できることを実証しています。これにより、言語モデルの透明性、解釈性、そして安全な利用に直接的な影響を与える重要な特性としての単射性が確立されました。