arXiv cs.AI

テキスト埋め込みにおける平均バイアスの修正:MMTEBにおけるトレーニング不要の改善を伴う洗練された再正規化

Correcting Mean Bias in Text Embeddings: A Refined Renormalization with Training-Free Improvements on MMTEB

http://arxiv.org/abs/2511.11041v1


この記事では、現行のテキスト埋め込みモデルが一貫したバイアスを持っていることが指摘されています。具体的には、埋め込みベクトルは共通の平均バイアス成分を含んでいます。そのため、著者は「再正規化」と呼ばれるプラグアンドプレイのトレーニング不要な解決策を提案しています。多くの実験を通じて、この再正規化手法が既存モデルの性能を大幅に改善することを示しました。38のモデルにおいて、再正規化は情報検索タスクで9.7σ、分類タスクで3.1σと顕著な性能向上を達成しました。再正規化には、二つの変種があり、いずれも平均バイアス成分を埋め込みから引き算する手法です。著者たちは後者がより効果的であると予測し、実験結果もそれを支持しています。