本研究では、スライドプレゼンテーションやポスターなどのインタラクティブなマルチメディア文書を、編集可能な構造化ベクターフォーマットへと変換する方法を提案しています。既存のラスタ画像からベクタ形式への変換技術は、複雑な文書に対して高次の構造を保持できず、不十分です。これを克服するために、提案された「SliDer」は、ビジョン-ランゲージモデルを用いてラスタ画像をコンパクトで編集可能なSVG形式に変換します。SliDerは、個々の画像やテキスト要素を検出して属性を抽出し、SVG形式に整理します。また、スライド文書からラスタ-SVGペアを含む新しいデータセット「Slide2SVG」を導入し、今後の研究のための基盤を提供します。実験結果から、SliDerは非常に高い再構築精度を示し、評価者からも高く評価されています。