本研究は、仮想現実(VR)および拡張現実(AR)における自然で効率的なインタラクションの実現を目指しています。従来の視覚ベースのジェスチャー認識は高コストや照明条件に対する感度、プライバシーの懸念がありましたが、音響センシングが代替手段として注目されています。本研究では、音響信号の反射を利用してジェスチャーを捉える新しいフレームワークを提案します。特に、大規模言語モデル(LLM)を活用し、少ないデータでも学習可能な手法を導入しました。実際に10人の参加者が15種類のジェスチャーを行い、収集したデータを用いて実験を行った結果、LLMを用いたフレームワークは、従来の機械学習手法と同等の精度を達成しました。この方法はドメイン特化の再学習を必要とせず、高い効率性を持っています。