arXiv cs.AI

生成中の思考:視覚生成におけるテキスト推論の間隔挿入

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

http://arxiv.org/abs/2511.16671v1


本研究は「生成中の思考(TwiG)」と呼ばれる新しいフレームワークを提案し、視覚生成過程でテキスト推論をインタリーブ(間隔挿入)する方法を探る。このフレームワークは、視覚コンテンツを生成する際に、直前または直後の推論だけではなく、生成中にリアルタイムでテキスト推論を行うことを可能にする。生成された視覚コンテンツを進行中に参照しながら、テキスト推論が次に生成される領域をガイドし、過去に生成された領域に対しても反映される。このダイナミックな相互作用により、より文脈に配慮した意味深い視覚出力が得られることが示されている。議論された戦略の中には、ゼロショットプロンプティング、カスタマイズしたデータセットに基づく監視型ファインチューニング、強化学習が含まれ、それぞれが間隔挿入推論の動態に関する独自の視点を提供している。この研究は、視覚生成を向上させるためのさらなる研究を刺激することを目的としている。