arXiv cs.LG

深層CNNと双方向ゲート付き再帰ユニットを用いた画像からベンガル語キャプション生成

Image to Bengali Caption Generation Using Deep CNN and Bidirectional Gated Recurrent Unit

http://arxiv.org/abs/2012.12139v1


この研究は、画像からベンガル語の自然言語キャプションを生成するためのCNNと双方向ゲート付き再帰ユニット(BGRU)に基づいた構造モデルを提案しています。約2億4300万人が話すベンガル語は、世界で7番目に話されている言語ですが、ベンガル語による記述生成に関する研究は非常に少ないです。このモデルは、視覚障害者の日常生活を助けたり、言語の壁を越えて理解を促進することが期待されています。提案モデルでは、事前学習済みの深層畳み込みニューラルネットワークであるInceptionV3をエンコーダーとして使用し、画像を分析・分類・注釈付けします。BGRUをデコーダーとして用い、アルゴリズムの引数最大化およびビームサーチを適用して、高品質のキャプションを生成します。8000枚の画像とそれぞれ5つのキャプションからなる新たなデータセットBNATUREを使用し、訓練とテストを行いました。さらに、BLEUスコアを評価指標としており、BLEU-1が42.6などの結果が得られています。