最適化問題を産業アプリケーション向けに定式化するには多くの手作業と専門知識が必要ですが、Large Language Models(LLMs)がこのプロセスを自動化する可能性があります。しかし、LLMsのパフォーマンス評価は信頼できる指標がないため難しいのが現状です。本論文では、ORGEvalという新しいフレームワークを提案し、LLMsが線形および混合整数線形プログラムを定式化する能力を評価します。ORGEvalは最適化モデルをグラフとして表現し、同型性の検出をグラフ同型テストに簡素化します。この検証により、正確性を確保しつつ、実数のばらつきに強い評価を可能にすることが示されています。実験では、ORGEvalがモデルの同型性を高い精度で検出できることと、特に難問においても計算時間を大幅に削減できることが確認されました。最終的にBench4Optデータセットを構築し、主要なLLMsの最適化モデリング性能を評価しています。