VLA-Pruner: 時間を考慮した二段階ビジュアルトークンプルーニングによる効率的な視覚-言語-行動推論

VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference

VLA-Prunerは、視覚-言語-行動（VLA）モデルの効率的な推論を可能にするために設計された新しいトークンプルーニング手法です。従来の手法は、トークンの選択において意味的な顕著性に基づいていましたが、行動生成に必要な重要な情報を無視するため、VLAモデルの性能を低下させる問題がありました。本研究では、トークン保持に関して視覚-言語不足への依存性と行動実行に向けた低レベルの要求を考慮した二段階の重要度基準を採用しました。これにより、意味理解と行動実行の両方においてコンパクトで情報量豊富な視覚トークンセットを効果的に保持することができます。実験結果は、VLA-Prunerが複数のVLAアーキテクチャと多様なロボットタスクにおいて最先端の性能を達成したことを示しています。