arXiv cs.AI

いつアンサンブルするか: 安定かつ迅速なLLMアンサンブルのためのトークンレベルのポイントの特定

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

http://arxiv.org/abs/2510.15346v1


大規模言語モデル(LLM)のアンサンブル技術は、個々のモデルの強みを活かして性能を上回る有望なアプローチとして注目されています。特に、モデルの次トークン確率分布を集約して次のトークンを選択する手法は、さまざまなタスクで有効性が示されています。しかし、短文生成には成功している一方で、長文生成への応用は十分に探求されていません。本論文では、長文生成におけるアンサンブルに対して careful choice が必要であると示し、トークン化の不一致と次トークン確率分布の合意が重要な要素であることを特定しました。これに基づき、SAFE(安定かつ迅速なLLMアンサンブル)というフレームワークを提案し、安定性を向上させるために確率のシャープニング戦略を導入しました。実験結果はSAFEが精度と効率の両方で既存の手法を上回ることを示しており、1%未満のトークンをアンサンブルしても改善が見られました。