UAVBench: LLM生成の飛行シナリオによる自律型およびエージェント型AI UAVシステムのためのオープンベンチマークデータセット

UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

本記事では、UAVBenchという新しいオープンベンチマークデータセットを紹介しています。このデータセットは、5万件の検証済みUAV（無人航空機）飛行シナリオで構成されており、これらは大規模言語モデル（LLM）によって生成され、階層ガイドに基づいて構造化されています。シナリオは、ミッションの目的、車両構成、環境条件、リスクラベルなどを含むJSONスキーマでエンコードされており、多様な領域にわたるUAV操作の統一的な表現を提供します。さらに、UAVBench_MCQという推論指向の拡張が含まれており、これは認知的および倫理的推論スタイルに基づいた5万の選択肢問題を提供します。評価では、32の最先端LLMが使用され、知覚やポリシーの推論において高解像度な結果が得られましたが、倫理的配慮やリソース制約のある意思決定には課題が残っています。このデータセットは、エージェント型AIの評価基盤として、次世代のUAV推論知能の進展に貢献することを目的としています。