密な情報検索タスクにおけるエキスパートのミクスチャーアプローチ

この記事では、密な情報検索（DRM）モデルにおけるエキスパートのミクスチャー（MoE）アプローチについて論じています。DRMは情報検索の重要な発展ですが、これらのモデルは訓練された特定のタスクやドメインを超えて一般化するのが難しいという課題があります。従来の研究では、各TransformerレイヤーにMoEフレームワークを組み込むことでこの課題に取り組んできましたが、これにより追加のパラメータが大幅に増加してしまいます。本論文では、最終Transformerレイヤーの後に単一のMoEブロック（SB-MoE）を導入するより効率的な設計を提案します。SB-MoEの情報検索における効果を評価するため、三つのIRタスクで実験を行い、特に軽量基盤モデルに対して優れた性能を示すことがわかりました。これにより、標準的なモデルの微調整を超える結果が得られました。さらに、モデルのハイパーパラメータの依存関係やその変動がSB-MoEのパフォーマンスにどのように影響するかについても分析が行われました。