ChunkLLM: LLM推論の加速のための軽量プラグ可能フレームワーク

ChunkLLMは、トランスフォーマーベースの大規模モデルにおける自然言語処理とコンピュータビジョンの計算効率の問題を解決するための軽量でプラグ可能なトレーニングフレームワークです。具体的には、QKアダプタとチャンクアダプタの2つのコンポーネントを導入します。QKアダプタは各トランスフォーマーレイヤーに取り付けられ、特徴圧縮とチャンクアテンションの取得を行います。一方、チャンクアダプタはモデルの最下層で動作し、文脈的意味情報を利用してチャンク境界を検出します。トレーニング段階ではバックボーンのパラメータを固定し、QKアダプタとチャンクアダプタのみをトレーニングします。推論時には、トークンがチャンク境界として検出されるときのみチャンク選択が行われ、モデルの推論を加速します。実験では、短文と長文のベンチマークデータセットで評価し、短文ベンチマークと比較して同等の性能を維持しながら、長文ベンチマークでは98.64%の性能を保持し、最大4.48倍の加速を実現しました。