DialectGen: マルチモーダル生成における方言のロバスト性のベンチマークと改善

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

本研究では、様々な英語の方言に基づくテキスト入力を用いたマルチモーダル生成モデルのパフォーマンスを評価し、多様な方言に対するロバスト性を改善する方法を探求しました。新たに構築した6つの一般的な英語方言を対象にした大規模なベンチマークでは、4200を超えるユニークなプロンプトを収集し、17種類の画像および動画生成モデルで評価を行いました。結果は、プロンプトに方言の単語を使用すると、最先端のモデルのパフォーマンスが32.26%から48.17%低下することを示しました。ファインチューニングやプロンプトの再作成などの一般的な対策は性能改善に効果が薄く、標準的なアメリカ英語へのパフォーマンス低下を伴うことが多いです。このため、方言の特徴をモデルに学習させつつ、アメリカ英語のパフォーマンスを保持する一般的なエンコーダーベースの対策を提案しました。実験により、当手法は方言のパフォーマンスをアメリカ英語と同等まで引き上げることができ、アメリカ英語のパフォーマンスにはほとんど影響を与えないことが示されました。