シンボリックシーケンスの微分可能な比較のためのソフトエディット距離

本論文では、二つの文字列を比較する際に用いられるエディット距離の新たなアプローチとして、「ソフトエディット距離（SED）」を提案しています。従来のエディット距離は離散関数であるため最適化が難しく、特に機械学習においては利用が制約されることが多いです。SEDはエディット距離の滑らかな近似であり、微分可能であるため勾配法を用いて最適化が可能です。この新しいメトリックは、多様な長さのシーケンスをクラスタリングする際にも有効性を示し、合成データセットや生物学的シーケンスのクラスタリングにおいてその有用性が証明されています。