コードスイッチングスピーチにおける言語バランスの調整

この研究は、コードスイッチング（言語を切り替えること）において、大規模な基礎モデルが直面する課題について述べています。これらのモデルは、標準的なベンチマークでは優れた結果を出しますが、コードスイッチングテストケースではパフォーマンスが低下することがあります。これは、第二言語が微妙に埋め込まれる瞬間が頻繁に発生しないことが原因であり、これを克服するためにはモデルにラベルを提供することが有効とされています。研究では、埋め込まれた言語と主言語の差を利用して、コードスイッチングポイントを特定し、そこにおける学習を強調することが提案されています。このアプローチにより、生成時の文脈バイアスが軽減され、モデルの頑健性が向上すると報告されており、特にアラビア語と中英語の実験で明確な効果が見られました。