高解像度画像のための正確で詳細なキャプション生成

本研究では、高解像度画像に対して正確で詳細なキャプションを生成するための新しいパイプラインを提案しています。従来の視覚言語モデル（VLM）は、低解像度入力に基づいて事前訓練されているため、高解像度画像からのキャプション生成が難しく、視覚的な詳細が損なわれることがあります。提案された手法では、最初にVLMを使用してキャプションを生成し、次に大規模言語モデル（LLM）で重要なオブジェクトを特定。LLMは、特定したオブジェクトと共起する可能性のある追加オブジェクトを予測し、これが物体検出システムで検証されます。新たに検出されたオブジェクトには、焦点を当てた地域特異的なキャプション付けを行うことで、キャプションの詳細を豊かにし、未検出オブジェクトへの言及を削除することによりハルシネーションを最小限に抑えます。実験結果は、提案したパイプラインがより詳細かつ信頼性の高いキャプションを生成できることを示しています。