本研究では、シーンテキスト編集(STE)のための新たなフレームワーク「TripleFDS」を提案します。STEは、画像中のテキストを自然に修正しつつ視覚的一貫性を保つことを目指しますが、従来の手法は編集可能な属性の完全な分離に苦労していました。TripleFDSは、テキストのスタイル、内容、背景という三つのモジュール属性を分離し、これをもとにする新しいデータセット「SCB Synthesis」を使用します。このデータセットは、三つの属性を組み合わせた多様なトレーニンググループを生成するためのものです。TripleFDSは、セマンティックな正確さを保ちながら特徴を分離し、その後の合成段階で特徴の再マッピングを行い、再構築中のショートカット現象や特徴の漏れを防ぎます。試験の結果、TripleFDSは最先端の画像忠実度とテキストの正確性を達成し、スタイル置換や背景転送といった新しい編集機能もサポートしています。