arXiv cs.AI

GGBench: 統合型マルチモーダルモデルのための幾何学的生成推論ベンチマーク

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

http://arxiv.org/abs/2511.11134v1


本記事では、統合型マルチモーダルモデル(UMMs)の新たな評価基準である「GGBench」を紹介しています。このベンチマークは、既存の評価方法が主に識別的理解や非制約画像生成を別々に評価している現状に対し、生成推論の統合的な認知過程を測定することを目的としています。GGBenchは、言語理解と正確な視覚生成の融合を要求する幾何学的構築をテストベッドとして採用し、モデルが理解と推論をしながら積極的に解決策を構築する能力を体系的に評価できるフレームワークを提供します。これにより、次世代のAIシステムに対するより厳格な基準を設定することを目指しています。