MermaidSeqBench: LLMからMermaidシーケンス図生成の評価ベンチマーク

MermaidSeqBench: An Evaluation Benchmark for LLM-to-Mermaid Sequence Diagram Generation

本論文では、自然言語から構造化図を生成する能力を持つ大規模言語モデル（LLM）を対象に、新しい評価ベンチマーク「MermaidSeqBench」を提案しています。特に、ソフトウェア工学におけるシーケンス図生成に焦点を当てており、これは一般的にMermaidというテキストベースの構文で表現されます。しかし、これまでのところ、この分野における系統的な評価が不足しているため、LLMが正確にシーケンス図を生成できるかを評価するための既存のベンチマークがありませんでした。MermaidSeqBenchは、人間による確認とLLMによる合成拡張を融合させた132のサンプルから構成され、さまざまな評価指標を用いてLLMの能力を定量的に評価します。このベンチマークは、構造化図生成に関する研究を進展させ、より厳密な評価手法の開発に寄与することを目的としています。