本論文では、半構造データから高難易度のマルチホップ質問を自動で生成するフレームワーク「BMGQ」を提案しています。近年、モデルの検索や推論能力を本当に試すためのトレーニング用マルチホップ質問応答(QA)データセットを構築することは困難であり、特に曖昧で間接的、かつ異なる領域を越えた手がかりを統合する必要がある問題に適した評価データセットは不足しています。そのため、手動での質問作成は人件費が高く、スケールしないという問題があります。本提案手法では、自然言語推論(NLI)に基づいた関係タイプ付けや多様性意識の拡張を行い、多様かつ論理的にラベル付けされた証拠クラスターを生成します。また、逆質問構築技術を用いて、簡単に直接的に回答できないが、複雑な手がかりを組み合わせることによってターゲットを特定する質問を作成します。さらに、質の評価には多モデルコンセンサスフィルタリングや構造的制約分解を組み合わせた二段階評価パイプラインを導入。これにより、トレーニングと評価の両方に適した複雑な質問を効率的に生成し、手作業の負担を大幅に軽減することができます。