最近、マルチモーダルの継続学習において新たなタスクを順次学習しながら以前のタスクの性能を維持するための重要な進展がありました。しかし、既存の手法は主に粗粒度のタスクに焦点を当てており、細粒度の継続学習におけるモダリティの絡み合いに対処するには限界があります。この記事では、新たに継続的な音声視覚セグメンテーション(CAVS)タスクを導入し、オーディオに基づいて新たなクラスを連続的にセグメント化する方法を提案しています。具体的には、マルチモーダルのセマンティックドリフトや共起混乱という二つの課題を特定し、これらに対応するために衝突ベースのマルチモーダルリハーサル(CMR)フレームワークを設計しました。実験結果は、提案された方法が単一モーダルの継続学習手法よりも優れていることを示しています。