BhashaKritika: インド言語のための合成事前学習データの大規模生成

本研究では、インド言語向けに540Bトークンからなる大規模合成データセット「BhashaKritika」を構築し、その生成および評価に関する体系的な研究を行いました。特に、低リソース言語環境において、合成データが高品質な事前学習データを大量に生成する代替手段として注目されています。我々は5つの異なる技術を使用して、10言語のための多言語合成事前学習データを生成し、文書やペルソナ、トピックに基づく生成がデータの質に与える影響を探求しました。また、英語コンテンツの翻訳とネイティブ生成の比較分析も行い、データ品質における言語選択の影響を評価しました。評価のためのモジュラー品質評価パイプラインを提案し、多様なスクリプトと言語コンテキストにおける堅牢な品質管理を実現しています。実験結果を通じて生成戦略の重要なトレードオフを明らかにし、多言語コーパス構築のベストプラクティスを示しました。