arXiv cs.LG

KCM:KANに基づく協働モデルが事前学習した大規模モデルを強化する

KCM: KAN-Based Collaboration Models Enhance Pretrained Large Models

http://arxiv.org/abs/2510.20278v1


近年、事前学習大規模モデル(PLM)の研究において、小規模モデルと大規模モデルの協働フレームワークが提案されています。小規模モデルが大規模モデルを支援することで、計算資源の消費を大幅に削減し、特定のドメインタスクにおける大規模モデルの性能を向上させることを目指しています。しかし、この協力のパラダイムには、精度の著しい低下、破滅的忘却の悪化、小規模モデルの知識による幻覚問題の増加といった課題があります。これらの課題に対処するため、KANに基づく協働モデル(KCM)を提案しました。KANは、従来の多層パーセプトロン(MLP)とは異なるニューラルネットワークアーキテクチャであり、可視性や解釈性に優れ、破滅的忘却を軽減します。KCMを言語、視覚、視覚-言語クロスモーダルタスクの3つのシナリオで展開した結果、KCMを使用した協働フレームワークは、大規模モデルの推論呼び出し回数を大幅に減少させ、ほぼ同等のタスク精度を維持することができました。また、KANに基づく小規模協働モデルは、破滅的忘却を著しく軽減し、長尾データの精度向上につながります。実験結果から、KCMは全ての指標においてMLPに基づく小規模協働モデル(MCM)よりも優れた性能を示しました。