Whisperモデルは、多言語及びゼロショット設定において優れた性能を発揮するオープンソースの自動音声認識システムですが、特に騒音環境下では幻覚エラーが頻発します。従来のアプローチは主に音声の前処理や文字起こしの後処理に焦点を当ててきましたが、モデル自体の修正はあまり行われていませんでした。本研究では、まず適応層アテンション(ALA)を用いてエンコーダの堅牢性を強化し、次に多目的知識蒸留(KD)を用いて幻覚を軽減する二段階のアーキテクチャを提案しています。ALAはエンコーダの層を意味的に整合するブロックにグループ化し、学習可能なマルチヘッドアテンションモジュールがこれらのブロック表現を融合します。KDフレームワークは、教師モデルからクリーンな入力を処理する際の意味的および注意分布を学生モデルがノイズ音声で学習することでアラインメントを図ります。実験結果は、騒音のあるスピーチベンチマークでの幻覚や単語誤り率の顕著な低下を示し、クリーンなスピーチの性能を維持することを確認しました。