BanglaSTEMは、バングラ語から英語への技術的な問題解決に特化した平行コーパスのデータセットです。従来のバングラ語と英語の翻訳システムは、専門用語の誤訳が多く、問題の意味を変えてしまうことが課題でした。この研究では、STEM分野(コンピュータサイエンス、数学、物理学、化学、生物学)から選ばれた5000組のバングラ-English文対を用意しました。さらに、言語モデルを用いて12000以上の翻訳を生成し、専門用語を正確に保持する最高品質のペアを人間評価者が選定しました。これに基づいてT5モデルの翻訳モデルを訓練し、コード生成と数学問題の解決に関する2つのタスクでテストした結果、技術的コンテンツの翻訳精度が大幅に向上しました。この研究成果は、バングラ語話者が英語に特化した言語モデルを効果的に活用する手助けになります。