arXiv cs.AI

TurkColBERT: トルコ語情報検索のための密なモデルと遅延インタラクションモデルのベンチマーク

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

http://arxiv.org/abs/2511.16528v1


本論文では、トルコ語の情報検索における密なエンコーダーと遅延インタラクションモデルの比較を行う初の包括的ベンチマークであるTurkColBERTを提案しています。トルコ語は形態的に豊かでリソースが乏しい言語であり、神経情報検索システムの多くは主要な言語に偏っています。本研究では、密なバイエンコーダーが主流ですが、トークンレベルの表現を保持する遅延インタラクションモデルはこれまで体系的に評価されていません。二段階の適応パイプラインを使用して、トルコ語の自然言語インタラクションタスクでエンコーダーを微調整し、ColBERTスタイルのリトリーバーに変換しています。評価では、科学、財務、議論の領域をカバーする5つのトルコ語BEIRデータセットを用いて10モデルを比較し、パラメータ効率の優れた結果を示しています。特に、ドメイン特化タスクにおいて最高13.8%のmAP向上を達成しています。