LLM推論の検証によるモデル重みの流出防止

大規模なAIモデルがますます価値ある資産となる中で、推論サーバーからのモデル重みの流出リスクも増大しています。攻撃者は、推論サーバーを制御し、通常のモデル出力に隠す形でモデル重みを流出させることができ、この手法はステガノグラフィーとして知られています。本研究では、こうした攻撃に対抗するためにモデルの応答を検証する方法を探求し、推論中の異常またはバグのある挙動を検出するための広範な方法論を提案します。モデルの流出をセキュリティゲームとして形式化し、ステガノグラフィーによる流出を軽減することが証明可能な検証フレームワークを提案し、当該手法に関する信頼仮定を明示します。さらに、LLM推論における非決定性の有効なソースを特定し、それに対する実用的な推定器を導入しました。評価の結果、MOE-Qwen-30Bモデルにおいて、流出可能な情報を0.5%未満に抑え、誤検知率は0.01%であり、敵対者に対しては200倍以上の遅延をもたらしました。この研究は、モデル重みの流出防止のための基盤を築き、推論提供者に対するコストが最小限に抑えられた強力な保護が可能であることを示しています。