arXiv cs.AI

スケッチからレイアウトへ: スケッチ誘導によるマルチモーダルレイアウト生成

Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation

http://arxiv.org/abs/2510.27632v1


本稿では、視覚的レイアウト生成に関する新しい研究成果を紹介します。具体的には、ユーザーが提供するスケッチを直感的な制約として活用し、高品質なレイアウトを生成する手法を提案します。従来の方法は複雑な仕様を必要とし、使い勝手が低下することが多かったのに対し、私たちのアプローチはスケッチを入力とし、マルチモーダルトランスフォーマーを用いてレイアウトを生成します。効果的なモデル訓練のために、新たに合成スケッチを大量に生成する手法も導入しました。本研究では、PubLayNet、DocLayNet、およびSlidesVQAの3つの公開データセットでモデル評価を行い、従来の制約ベース手法を上回る成果を示しています。さらに、今後の研究を促進するために、約20万点の合成スケッチを公開しました。