GLYPH-SR: 高品質な画像の超解像と高忠実度なテキスト復元をVLMガイド付き潜在拡散モデルで実現できるか？

GLYPH-SR: Can We Achieve Both High-Quality Image Super-Resolution and High-Fidelity Text Recovery via VLM-guided Latent Diffusion Model?

本稿では、画像の超解像(SR)とテキスト復元の両方を高品質に実現するための新しいフレームワークGLYPH-SRを提案しています。SRは、特に自然シーンに埋め込まれたテキストを高解像度で復元することで、下流の認識精度を向上させるために重要です。従来のSR研究は、歪みや知覚メトリクスに重点を置き、文字レベルのエラーには敏感でありませんでした。本研究では、OCRデータに基づくText-SR Futuion ControlNetを利用し、テキストとシーンに焦点を当てたガイダンスを交互に行う「ピンポンスケジューラ」を採用しています。合成コーパスでの学習を通じて、GLYPH-SRはOCRのF1スコアを従来の手法と比較して最大15.18ポイント向上させ、視覚的なリアリズムと可読性の両方を満たすことを目指しました。