arXiv cs.LG

SAVeD: セマンティック認識バージョン発見

SAVeD: Semantic Aware Version Discovery

http://arxiv.org/abs/2511.17298v1


本稿では、構造化データセットのバージョンをメタデータやラベル、統合ベースの仮定に頼らずに識別するためのコントラスト学習に基づくフレームワーク「SAVeD(セマンティック認識バージョン検出)」を紹介しています。データサイエンスにおける作業の重複問題を解決するために、SAVeDは強化されたテーブルビューを生成するために変更されたSimCLRパイプラインを使用し、ランダムな変換(行削除やエンコーディングの変動)を行います。これにより、同一データセットの増強されたビュー間の距離を最小化し、無関係なテーブル間の距離を最大化することを学習します。性能評価には、バリデーション精度と分離という2つの指標が用いられ、実験結果は五つの標準データセットを用いており、トレーニング後に顕著な向上が確認されています。SAVeDは、未見のテーブルに対して大幅な精度向上を達成し、セマンティックに修正されたバージョンを区別する能力を示しています。従来の手法と比較して、競争力のある結果を得ることができました。