言語はモダリティである: エンコーダー注入による言語間アライメント

本稿では、Instruction-tuned Large Language Models（LLMs）がリソースの少ない非ラテン系スクリプトにおいて劣る理由として、トークナイザーの断片化や言語間の結合が弱いことを挙げています。これに対処するために、著者らはLLINK（Latent Language Injection for Non-English Knowledge）という手法を提案しています。この手法は、トークナイザーを変更したりデコーダーを再トレーニングすることなく、指示調整されたデコーダーの条件付けを行う、計算効率の高い言語モダリティ手法です。具体的には、多言語エンコーダーからの文埋め込みを固定された位置にアラインし、軽量なコントラストプロジェクターを用いてデコーダーの潜在埋め込み空間に接続します。LLINKはバイリンガルリトリーバルを大幅に改善し、LLMによるQ&A評価で基準モデルに対して81.3%の優位性を示しました。この研究は、リソースの少ない言語をモダリティとして扱うことが、軽量LLMsにおける強力な言語間アライメントへの実用的な道を提供することを示唆しています。