AirCopBench: マルチドローン協調具現認知と推論のベンチマーク

AirCopBench: A Benchmark for Multi-drone Collaborative Embodied Perception and Reasoning

この記事では、マルチモーダル大規模言語モデル（MLLMs）の単一エージェント視覚タスクにおける可能性が示されていますが、マルチエージェントの協調認知を評価するためのベンチマークは少ないと指摘しています。このようなベンチマークの不足は、単一センサーシステムに比べてマルチドローンシステムが提供するカバレッジ、堅牢性、および協力性が向上するため、重要な課題です。AirCopBenchは、挑戦的な知覚条件下での具現空中協調認知を評価するために設計された初の総合的なベンチマークです。14.6k以上の質問がシミュレーターおよび実世界データから生成され、シーン理解、物体理解、知覚評価、協調決定といった4つの主要タスク次元を網羅しています。評価された40のMLLMsは協調知覚タスクにおいて人間より平均24.38%劣っており、タスク間で不均一な結果を示しました。さらに、シミュレーションから実世界への転送の可能性についても確認されました。