HackerNews

Picoバナナ:Appleによる画像編集のための大規模データセット

Pico Banana: Large-Scale Dataset for Image Editing by Apple

https://arxiv.org/abs/2510.19808


Pico-Banana-400Kは、テキストガイドの画像編集を目的とした40万画像の大規模データセットです。最近のマルチモーダルモデルの進展により、テキストによる画像編集能力が向上していますが、高品質でオープンにアクセス可能な実画像に基づくデータセットが不足していました。Pico-Banana-400Kは、OpenImagesコレクションから実写真を用いて多様な編集ペアを生成するNano-Bananaを活用して構築され、品質と多様性を重視した体系的アプローチが特徴です。このデータセットは、単一ターンの編集を超え、複雑な編集シナリオの研究を可能にします。さらに、72K例の多ターンコレクションや56K例の好みサブセットなど、3つの特化サブセットを含み、次世代のテキストガイド画像編集モデルのトレーニングとベンチマークに健全な基盤を提供しています。