OmniVinci: Omniモーダル理解LLMのためのアーキテクチャとデータの強化

この論文では、OmniVinciという新たなオープンソースのオムニモダルLLMの構築プロジェクトを紹介しています。このプロジェクトは、異なるモダリティ（視覚、音声など）間の認識能力を向上させることを目指しています。特に、モデリングアーキテクチャの設計において3つの主要なイノベーションを提案しています。1つ目は、OmniAlignNetを使用して視覚と音声の埋め込みを共有のオムニモーダル潜在空間で強化します。2つ目は、Temporal Embedding Groupingを用いて、視覚と音声の信号間の相対的な時間的整合性を捉えます。3つ目は、Constrained Rotary Time Embeddingを使用して、時間情報をオムニモーダル埋め込みに符号化します。さらに、2400万の単一およびオムニモーダル会話を生成するためのキュレーション及び合成パイプラインも紹介されています。結果として、OmniVinciは他のモデルと比較して軽量で効率的なトレーニングを実現し、ロボティクスや医療AI、スマートファクトリーなどの応用領域での利点が示されています。