本論文では、チーム戦術が選手の個々の視点から形成され、チームメートの意図を予測・解釈・適応する能力に依存していることを考察します。従来のビデオ理解技術は主に第三者視点に頼っているため、マルチエージェント学習の同期的かつエゴセントリックな特性を無視している点に着目しました。そこで、124時間のゲームプレイ映像を含むX-Ego-CSというベンチマークデータセットを提案し、複雑な3D環境におけるマルチエージェントの意思決定研究を促進します。さらに、Cross-Ego Contrastive Learning(CECL)を提案し、エゴセントリックなビジュアルストリームを整合させることで、チームレベルの戦術的状況認識を向上させることを目指します。CECLを用いた選手の位置予測タスクの評価にも成功しており、この研究がエスポーツにおけるマルチエージェントベンチマークの基盤を築くことを示しています。本研究は、ゲームプレイの理解をマルチエージェントモデリングおよび戦術学習の試験場として位置付け、仮想及び現実世界での人間-AIチームの協働に寄与する可能性を示唆しています。