arXiv cs.LG

異種双曲多様体上の木におけるモダリティ整合性

Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds

http://arxiv.org/abs/2510.27391v1


本論文では、視覚と言語の情報を効果的に統合するためのモダリティ整合性の重要性について論じています。従来の方法は、テキストから階層的な特徴を抽出する一方で、各画像を単一の特徴で表現するため、整合性が非対称且つ最適ではありませんでした。本研究では「木における整合性」という手法を提案し、画像とテキストの両方のモダリティに対して階層的特徴を構築・整合します。具体的には、テキストによる手がかりを活用して、視覚的特徴を粗から細へと抽出するセマンティック認識フレームワークを導入しています。また、異なる曲率を持つ双曲多様体に特徴ツリーを埋め込むことで、階層構造を効果的にモデル化します。最終的には、KL距離を用いた分布間の測定法を定式化し、最適な中間多様体を学習することで整合性を確立します。実験では、提案手法が少数ショットおよびクロスドメインの設定で強力なベースラインを上回ることが示されました。