ファインビジョン: オープンデータが必要なすべて

ファインビジョンは、視覚と言語モデル（VLM）の発展を妨げる公的データセットのばらばらで不正確な状況に対処するための取り組みです。著者たちは、2400万のサンプルからなる最大のオープンリソースを提供し、200以上のデータソースを185のサブセットに統合しました。このプロセスでは、自動化された大量取り込みとスキーママッピングが行われ、人間のレビューアが結果を監査して信頼性を確認します。また、重複排除や66の公的ベンチマークに対する浄化が厳格に実施されます。ファインビジョンのモデルは、既存のオープンデータと比較して一貫して優れた結果を示し、スケールとデータの衛生がいかに重要であるかを浮き彫りにしています。これは、データ中心のVLM研究を加速するためのリソースです。