arXiv cs.LG

Hawk: 空間的コンテキストを活用した自動回帰型テキストから画像生成の高速化

Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation

http://arxiv.org/abs/2510.25739v1


この記事では、自動回帰(AR)画像生成モデルの新手法「Hawk」が提案されています。従来のARモデルは高精度な画像を生成する一方で、トークンごとの逐次的なデコーディングプロセスのために推論が遅いという問題があります。従来のスペキュレーティブデコーディング技術は、軽量なドラフトモデルを用いてARモデルの出力を近似し、テキスト生成を加速することに成功していますが、画像生成への応用は未開拓でした。Hawkは、画像の二次元空間構造を利用し、より正確かつ効率的な予測を導くことで、これらの課題を克服します。実験結果によると、Hawkは標準的なARモデルに対して1.71倍のスピードアップを達成し、画像の忠実性と多様性を保ちながら、そのパフォーマンスを向上させたことが示されています。