Appleの研究者による新しい研究が、LLM(大規模言語モデル)が音声データと動作データを分析することで、ユーザーの行動をより正確に理解できる可能性を示唆しています。この研究では、「LLMを用いた後処理マルチモーダルセンサーフュージョンによる活動認識」というペーパーが発表され、伝統的なセンサーデータと組み合わせることによる強みを論じています。具体的には、Ego4Dデータセットを使用し、日常生活に関連する多様な活動を認識するためのデータが策定されました。研究成果によると、LLMは基本的な音声と動作信号からユーザーの行動を推測するのに優れた性能を示し、特に少数の例からでも正確性が向上することが確認されました。