arXiv cs.LG

静的対動的を超えた分離:多因子時系列表現のベンチマークと評価フレームワーク

Disentanglement Beyond Static vs. Dynamic: A Benchmark and Evaluation Framework for Multi-Factor Sequential Representations

http://arxiv.org/abs/2510.17313v1


本論文では、時系列データにおける分離表現の学習を目的とし、ビジョン、オーディオ、時系列データに広く応用される手法を提案しています。従来の研究は、データ収集の容易さから、2要因の静的および動的な設定に焦点を当てていましたが、実世界のデータは複数の相互作用する意味要因を含むことが多いです。本研究では、ビデオ、オーディオ、時系列を含む6つの多様なデータセットに対する多因子時系列分離の評価ための標準化されたベンチマークを初めて紹介します。このベンチマークには、データセットの統合、モデル開発、そして多因子分析に特化した評価指標のためのモジュールツールが含まれています。また、潜在次元と意味要因を自動的に整列させるための後処理ステージを提案し、最先端の結果を達成するKoopmanに着想を得たモデルを導入しています。さらに、ビジョン・言語モデルを使ってデータセットの注釈を自動化し、手動のラベル付けや人間の介入を不要にする方法を示しました。これらの貢献により、多因子時系列分離の進展に資する堅牢かつスケーラブルな基盤を提供します。