COVID-19検出のための事前学習済み音声モデルのファインチューニング：技術報告

この技術報告は、事前学習済みの音声モデルを使用してCOVID-19を検出するタスクの性能を調査します。Audio-MAEおよび3つのPANNアーキテクチャ（CNN6、CNN10、CNN14）を使用して、CoswaraおよびCOUGHVIDデータセットに対してファインチューニングを行い、データセット内およびデータセット間の一般化を評価しました。年齢および性別による厳格な人口 stratificationを実施し、モデルが人口特性とCOVID-19の状態との間の誤った相関を利用するのを防ぎました。結果として、CoswaraではAudio-MAEがAUC0.82、F1スコア0.76を達成したものの、Coughvidではすべてのモデルが限られた性能を示しました（AUC0.58-0.63）。データセット間評価では、すべてのモデルで極めて低い一般化能力が見られ、特にAudio-MAEは性能が著しく低下しました。結果は、人口バランスの重要性を示し、臨床的に強固なモデル評価のためには厳密な人口制御が必要であることを強調しました。