本論文では、ネイティブ視覚-言語モデル(VLM)の構築に向けた課題と原則を明確化しています。特に、ネイティブVLMはピクセルと単語の表現を共有のセマンティック空間で効果的に整列させること、以前の視覚と言語モジュールの強みを統合すること、異なるクロスモーダル特性を内包し、統一された視覚と言語のエンコードや推論を支えることが求められます。著者たちは、390万の画像-テキスト例を用いて、これらの原則に基づくNEOという新しいネイティブVLMファミリーを提案しており、このモデルは多様な現実のシナリオにおいてモジュラーVLMに対抗できる能力を持っています。また、この全体的な設計により、コスト効率の高い拡張可能なエコシステムが構築されることを目指しています。