arXiv cs.AI

圧縮を学ぶ:テキスト表現のための大規模言語モデルの可能性を解き放つ

Learning to Compress: Unlocking the Potential of Large Language Models for Text Representation

http://arxiv.org/abs/2511.17129v1


本研究では、大規模言語モデル(LLM)のテキスト表現における可能性を探求します。LLMは主に次単語予測に最適化されており、全体的な表現の生成には適していません。これに対処するため、最近の研究ではLLMを適応させるための前提タスクとして文脈圧縮を導入しました。この圧縮事前学習において、モデルは全体の文脈を代替するコンパクトなメモリトークンを生成することを学びます。実験結果から、適切に設計された圧縮目的がLLMを基にしたテキスト表現を大幅に向上させることが示され、トークンレベルの前提タスクで訓練されたモデルよりも優れた性能を発揮しました。また、対比学習を通じて得られた表現モデル(LLM2Comp)は、幅広いタスクにおいて現代のLLMベースのテキストエンコーダよりも高い性能を実現し、訓練データも大幅に少なくて済みました。