この研究では、スプレッドシートのテンプレートを発見するための新しい類似性測定法を提案しています。従来の方法は、スプレッドシートの構造的な類似性を把握することが難しく、テンプレートを定義する空間的なレイアウトやデータ型パターンを捉えることができませんでした。提案する手法は、意味的な埋め込み、データ型情報、空間的位置を組み合わせたハイブリッド距離メトリックを使用し、スプレッドシートをセルレベルの埋め込みに変換します。そして、Chamfer距離やHausdorff距離などの集約技術を用いてスプレッドシートの類似性を算出します。テンプレートファミリーを対象にした実験では、従来のグラフベースの方法よりも優れたクラスタリング性能を示し、FUSTEデータセットにおいて完璧なテンプレート再構築を達成しました。このアプローチは、大規模な自動テンプレート発見を推進し、後続の応用、例えば、表形式のデータに対する取得強化生成やモデル学習、大規模データクレンジングを可能にします。