精密イベントスポッティング(PES)は、スポーツ分析の重要な要素であり、特定の瞬間に細かいイベントを認識することを目的としています。このタスクは、迅速な連続性や動体ブレ、微妙な視覚的差異によって特に難易度が高く、従来の手法はドメイン固有の大規模なラベル付きデータセットに依存しているため、少数ショット環境では効果が薄くなります。本研究では、UMEG-Netというユニファイドマルチエンティティグラフネットワークを提案し、人間の骨格やスポーツ特有のオブジェクトのキーポイントを統合したグラフを使って、効率的な時空間抽出を実現します。また、マルチモーダル蒸留を用いて、キーポイントベースのグラフから視覚表現への知識の転送を行い、限られたラベルデータでも堅牢な性能を発揮します。このアプローチは、少数ショット設定において従来のモデルを大きく上回る成果を上げており、スケーラブルで効果的なソリューションを提供します。