本論文では、マルチモーダル異常検知の新たな手法「RobustA」を提案します。従来のビデオ専用モデルと比較して、マルチモーダル異常検知技術の性能は顕著に向上していますが、実世界のマルチモーダルデータは環境の歪みによりしばしば破損します。本研究では、音声や視覚データの破損が異常検知に与える悪影響を体系的に調査しています。「RobustA」は、これらの破損したモダリティが異常検知システムの効果性に与える影響を観察するための評価データセットを提案し、さらに、異常検知の際に破損したモダリティに対して耐性を持つ新たな手法を提示します。この手法は、異なるモダリティのための共有表現空間を学習し、推論時には推定された破損のレベルに基づいて動的に重み付けを行います。本研究は、現実世界でのマルチモーダル異常検知の応用を進展させる重要なステップを示しています。