arXiv cs.LG

MILES: モダリティに基づく学習率スケジューラによるマルチモーダル学習のバランス

MILES: Modality-Informed Learning Rate Scheduler for Balancing Multimodal Learning

http://arxiv.org/abs/2510.17394v1


本研究は、マルチモーダルニューラルネットワークにおける効果的なトレーニング手法である「MILES」を提案しています。マルチモーダルネットワークは、異なるデータソース(モダリティ)を組み合わせることで性能向上を狙いますが、しばしばモダリティに過剰に依存する「モダリティ過学習」に悩まされ、十分な向上が得られません。MILESは、トレーニング中にモダリティごとの条件付き利用率の違いを活用し、学習率を動的に調整することで、各モダリティからの学習速度のバランスを取ります。このアプローチにより、マルチモーダルとユニモーダル(単一モダリティ)における予測性能が向上します。実験では、4つのマルチモーダル融合タスクにおいて他の最先端手法と比較し、MILESが全てのタスクで優れた性能を示すことが明らかになりました。マルチモーダル学習のバランスがモデルの性能に与える影響の重要性が示されています。