arXiv cs.AI

マルチモーダル基盤モデルによる空間知能の拡張

Scaling Spatial Intelligence with Multimodal Foundation Models

http://arxiv.org/abs/2511.13719v1


本研究では、マルチモーダル基盤モデルが持つ空間知能の欠如を克服するため、SenseNova-SIという新しいモデルファミリーを提案しています。これは、視覚理解モデル(Qwen3-VLやInternVL3など)と統合理解生成モデル(Bagelなど)を基盤に構築されています。具体的には、空間能力に関する厳格な分類の下で、800万の多様なデータサンプルを厳選・整理することで、高性能で頑健な空間知能を構築する手法を探求しました。SenseNova-SIは、VSI-Bench、MMSI、MindCubeなど、さまざまな空間知能ベンチマークで前例のない成果を示しました。また、データのスケーリングの影響や、異なるデータトレーニングによって可能になる一般化能力の兆候、過学習や言語のショートカットのリスクについても分析が行われています。このプロジェクトは進行中で、新たに訓練されたモデルは一般公開され、さらなる研究を促進します。