arXiv cs.LG

意思決定層におけるモダリティ不均衡の再考

Revisit Modality Imbalance at the Decision Layer

http://arxiv.org/abs/2510.14411v1


この論文では、マルチモーダル学習におけるモダリティ不均衡が、表現学習のみならず意思決定層においても顕著に現れることを示しています。著者らは、音声と視覚データセットを用いた実験を通じて、モデルが特定のモダリティ(特に音声)に対して体系的なバイアスを示すことを確認しました。このバイアスは、特徴空間と意思決定重みの分布の内在的な違いに起因しており、最適化のダイナミクスだけでは説明できないことが明らかになりました。著者は、融合段階での不校正のモダリティ出力の集約が偏った意思決定重みを引き起こし、弱いモダリティの寄与を妨げると指摘しています。今後のマルチモーダルシステムでは、各モダリティの特性に応じた適応的重み配分メカニズムの導入が重要であると提案しています。