注意ベースモデルにおける尤度誘導正則化

トランスフォーマーアーキテクチャは、構造化された高次元データの分類タスクにおいて強力なパフォーマンスを示していますが、その成功は大規模なトレーニングデータと過学習を防ぐための注意深い正則化に依存しています。本論文では、Vision Transformers（ViTs）向けに新しい尤度誘導の変分イジングベースの正則化フレームワークを提案し、モデルの一般化を向上させつつ冗長なパラメータを動的にプルーニングします。このアプローチは、ベイズ的スパース化技術を活用してモデル重みに構造化スパース性を施し、トレーニング中に適応的なアーキテクチャ探索を実現します。従来のドロップアウトベースの手法とは異なり、タスク適応型の正則化を学習することで、効率性と解釈可能性が向上します。MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100を含むベンチマーク視覚データセットで評価した結果、スパースで複雑なデータにおける一般化が改善され、重みと選択パラメータの不確実性定量化が可能になります。また、イジング正則化子は、不確実性に配慮した注意メカニズムを介して、より適切に調整された確率推定と構造化特徴選択をもたらすことが示されました。この研究は、トランスフォーマーに基づくアーキテクチャの改善における構造化ベイズスパース化の効果を強調し、標準的な正則化技術に代わる原則的な選択肢を提供します。