本論文では、極めて低い通信帯域幅での遠隔視覚分析や人間の相互作用、制御のための超低ビットレート視覚通信の問題を考察します。特に、既存のコーディング手法のわずかなビットレートで視覚シーンを正確に再構成できるかという重要な疑問を提起します。テキストから画像を生成するモデルは、超低ビットレートでの画像説明の新たなアプローチを提供しますが、視覚通信や遠隔視覚分析には不十分です。この課題を解決するために、画像生成と深層画像圧縮を統合し、テキスト記述とコーディングを用いた潜在的情報を活用する手法を提案します。実験の結果、この手法は既存の方法と同等の画像再構成品質と視覚分析精度を達成しつつ、はるかに少ない帯域幅で機能することが示されました。