音声強化(SE)タスクにおいて、軽量なデザインと高性能のバランスを取ることは、リソース制約のあるデバイスで大きな課題です。既存の最先端手法であるMUSEは、Multi-path Enhanced Taylor(MET)変換器とDeformable Embedding(DE)を導入し、わずか0.51Mパラメータで強力な基準を確立しています。しかし、深い分析により、MUSEは依然として効率のボトルネックに悩まされています。本論文では、IMSEという体系的に最適化された超軽量ネットワークを提案し、主に2つの革新を紹介します。1つは、METモジュールを振幅対応線形注意(MALA)で置き換えることにより、注意計算でのクエリベクトルのノルム情報を明示的に保持し、効率的なグローバルモデリングを実現します。2つ目は、DEモジュールをインセプション深層畳み込み(IDConv)に置き換え、大型カーネル運用を効率的な並列ブランチへ分解します。実験結果によれば、IMSEはMUSE基準に対してパラメータ数を16.8%削減しつつ、音声品質を競争力のあるレベルに保つことが確認されました。