本研究では、マルチモーダル基盤モデルが持つ空間知能の欠如を克服するため、SenseNova-SIという新しいモデルファミリーを提案しています。これは、視覚理解モデル(Qwen3-VLやInternVL3など)と統合理解生成モデル(Bagelなど)を基盤に構築されています。具体的には、空間能力に関する厳格な分類の下で、800万の多様なデータサンプルを厳選・整理することで、高性能で頑健な空間知能を構築する手法を探求しました。SenseNova-SIは、VSI-Bench、MMSI、MindCubeなど、さまざまな空間知能ベンチマークで前例のない成果を示しました。また、データのスケーリングの影響や、異なるデータトレーニングによって可能になる一般化能力の兆候、過学習や言語のショートカットのリスクについても分析が行われています。このプロジェクトは進行中で、新たに訓練されたモデルは一般公開され、さらなる研究を促進します。