この記事では、EBindという新しい手法を提案しており、複数の対照モデルの埋め込み空間を結びつけることに焦点を当てています。その核心は、モダリティごとに1つのエンコーダーを使用し、高品質なデータを活用することで、数時間内に最新のモデルを単一のGPUで訓練できる点です。EBindは、1.8Bパラメータの画像・テキスト・音声・3Dモデルを用いており、4倍から17倍の大きさのモデルを上回る性能を示しています。この成功の鍵は、3つの補完的なデータソースからなる厳選されたデータセットにあり、具体的には自動生成された多モーダルのクインタプル、半自動で人間が注釈を付けたトリプレット、既存のキャプション付きデータがあります。また、新たに音声とPC間の高品質なゼロショット分類ベンチマークも導入されました。この記事は、元のコードやモデル、データセットをオープンソースとして公開することを約束しています。