WERは無知：患者との対話におけるASRエラーが臨床理解をどのように歪めるかの評価

WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue

自動音声認識（ASR）が臨床対話にますます導入される中で、従来の評価は主に単語誤り率（WER）に依存しています。本論文では、WERや他の一般的な指標が転写エラーの臨床的影響とどの程度相関しているかを調査します。専門の臨床医が実際の発話とASRによって生成された発話を比較し、差異の臨床的影響をラベリングしてゴールドスタンダードのベンチマークを確立しました。その結果、WERや既存の様々な指標は臨床医が付与したリスクラベル（影響なし、最小、重大）の相関が悪いことが明らかになりました。評価のギャップを埋めるため、専門的な臨床評価を模倣するように最適化されたLLM（Gemini-2.5-Pro）を導入し、90%の精度と強いCohenのκ値0.816を達成しました。この研究は、ASR評価を単純なテキスト忠実性から臨床対話における安全性の評価へと進化させるための自動化された枠組みを提供します。