多言語画像翻訳のためのU-NetとTransformerパイプライン

本論文では、画像から直接テキストを翻訳するためのエンドツーエンドの多言語翻訳パイプラインを提案しています。このシステムは、テキスト検出のためのカスタムU-Net、テキスト認識のためのTesseractエンジン、そして独自に構築されたSeq2Seq Transformerを用いたニューラル機械翻訳（NMT）を組み合わせています。まず、合成データセットで訓練されたU-Netモデルを使用して、画像内のテキスト領域を効果的にセグメント化し、検出します。次に、検出されたテキスト領域はTesseractによって処理され、元のテキストが抽出されます。この抽出されたテキストは、5つの異なる言語からなる多言語平行コーパスで訓練されたカスタムTransformerモデルに入力されます。本システムは、テキスト検出精度、テキスト認識品質、そしてBLEUスコアによる翻訳性能の観点から評価され、カスタム構築されたシステムが有効であることを示す有望な結果をもたらしています。