マルチドメイントレーニングにおけるサンプリングと損失重み

本記事では、マルチドメイントレーニングにおけるサンプリング重みと損失重みの重要性について議論しています。大規模な深層ニューラルネットワークのトレーニングには、多様なデータが必要であり、WikipediaやGitHubなどの異なるドメインからデータが集められます。これらのドメインはデータの質や情報の多様性が異なるため、どの程度各ドメインに依存すべきかが問題となります。著者たちは、サンプリング重み（各ドメインがバッチにどれだけ寄与するかを制御）と損失重み（トレーニング中の各ドメインからの損失を尺度化）を研究しました。これにより、勾配推定の分散を減らし、一般化性能を向上させることが示されています。理論的および実証的な支持を通じて、これらの重みが相互に補完的な役割を果たすことが確認されました。