音声-言語モデルにおけるセグメント単位プルーニング

近年の音声-言語モデルは、さまざまな音声タスクにおいて優れた性能を示しており、長い音声入力にも対応可能です。しかし、これらのモデルの計算コストはシーケンスの長さに大きく依存し、音声データの性質から非常に大きくなり得ます。本研究では、トークンプルーニング手法の音声-言語モデルへの適用可能性を探求し、時間的次元を考慮した軽量な戦略を提案します。このアプローチでは、初期トークンの4分の1を保持することで、Clotho v2で最大2%、MMAUで最大4%の精度低下を抑えつつ効果を発揮しました。