この記事では、マルチモーダル大規模言語モデル(MLLM)の幾何学的推論能力を向上させる新しい手法「GeoFM」を提案しています。MLLMは多様なタスクに対応できるものの、幾何学的データの少なさから数学的推論に課題を抱えています。既存の合成データ生成方法は、問題を言い換えることや既存のルールを用いて幾何学的画像を作成する方法ですが、これらは多様性に欠け、ノイズが多くなりがちです。GeoFMは、形式言語を利用してメトリック空間内の条件の組み合わせを探り、高精度な幾何学的問題を生成することで、これらの課題を克服しています。実験結果では、GeoFMを用いたデータが従来の方法よりも優れており、特に数理問題解決タスクでプロプライエタリモデルを大きく上回る性能を示しています。