視点間の相互情報量を最大化することによる表現学習

本稿では、共有コンテキストの複数の視点から抽出された特徴間の相互情報量を最大化することに基づいた自己教師あり表現学習のアプローチを提案します。例えば、異なる位置や異なる感覚モダリティからの観察によって、局所的な時空間コンテキストの複数の視点を生成することができます。この方法を用いて開発されたモデルは、画像表現を学習し、従来の手法を大幅に上回る性能を発揮します。特に、自己教師あり学習を通じて、ImageNetデータセットにおいて68.1%の精度を達成し、これまでの結果を12%以上上回りました。このモデルは、混合ベースの表現を使用するように拡張することで、セグメンテーションの挙動も自然に出現します。