arXiv cs.AI

DiscoX: 専門領域における談話レベル翻訳タスクのベンチマーク

DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

http://arxiv.org/abs/2511.10984v1


本稿では、専門領域における談話レベルの翻訳評価が不十分である点を指摘し、その重要性を強調しています。現在の評価方法は主にセグメント単位の正確性に焦点を当てており、談話レベルの一貫性や厳密な用語精度を軽視しています。これに対し、著者らはDiscoXという新しいベンチマークを提案します。これは、中国語と英語の専門的な翻訳を対象としており、7つの領域から集めた200の専門文献を元にしており、平均1700トークン以上の長さを持っています。また、Metric-Sという新しい評価システムを開発し、精度、流暢さ、適切さについて詳細な自動評価が可能です。実験結果では、最先端の言語モデルが人間の専門家に比べて依然として劣っていることが認められ、プロフェッショナルな機械翻訳の難しさが示されました。この提案されたベンチマークは、今後の言語モデルに基づく翻訳の進展を支える強固なフレームワークとなります。