O3SLM: オープンウェイト、オープンデータ、オープンボキャブラリースケッチ言語モデル

O3SLMは、抽象的な視覚情報を解釈する能力が制限されている大型ビジョン言語モデル（LVLM）の問題に対処するために提案された新しいモデルです。特に、手書きのスケッチを理解する能力が不足していることが指摘されており、それを解決するための大規模なデータセットが求められていました。この記事では、手書きスケッチ、フォトリアリスティック画像、自然言語指示を同時にモデル化する新しいデータセットを提供し、これに基づいてトレーニングされたO3SLMを紹介しています。このモデルは、オブジェクトのローカライズ、カウント、画像検索、ビジュアル質問応答などのスケッチベースのタスクで従来のLVLMを大幅に上回る性能を示しており、特にスケッチ理解と推論において最先端の成果を達成しています。