このレポートでは、DCASE 2025チャレンジのトラック5への提出内容を紹介しています。音声質問応答(AQA)に特化したシステムは、SSLバックボーンBEATsを利用してフレームレベルの音声特徴を抽出し、分類ヘッドを通じて音響イベントのセグメントレベル予測を生成します。これらの予測は、最終的なイベントレベル予測を出す前にキャリブレーションされます。生成された予測は、質問と候補回答と共に構造化プロンプトに統合され、このプロンプトがGRPOアルゴリズムを用いてファインチューニングされたQwen2.5-7B-Instructに供給されます。この方法は、開発セットにおいて62.6%の精度を達成しており、音響イベント推論と学習済み大規模言語モデルの組み合わせの有効性を示しています。