音声からテキストへの翻訳システムの自動評価は、翻訳候補を1つまたは複数の参照翻訳と比較することで行われます。この方法はある程度の効果がありますが、ソース入力からの貴重な情報を無視するという制約があります。近年の機械翻訳における進展から、ソーステキストを取り入れたニューラルメトリックは人間の評価と強い相関を示すことが分かりました。このアイデアを音声翻訳に拡張するのは簡単ではなく、音声がソースとなるため、信頼性のある文字起こしや参照との整列がしばしば利用できません。本研究では、ソース文字起こしが利用できない現実的な条件に焦点を当て、音声入力のテキスト代理を生成するための2つの戦略を探求し、新しい二段階のクロスリンガル再セグメンテーションアルゴリズムを提案します。実験の結果、単語誤り率が20%未満の場合、ASR文字起こしがバック翻訳よりも信頼性の高い合成ソースであることが示され、バック翻訳は計算コストの低い代替手段として機能します。また、提案したアルゴリズムにより、音声翻訳評価におけるソースを考慮したメトリックの利用が強化され、より正確な評価手法の実現が期待されます。