本稿では、視覚的ピボットを用いたゼロリソース機械翻訳における漸進的学習アプローチを提案します。従来のニューラル機械翻訳モデルは、大規模な並列コーパスの欠如に悩まされていました。人間は、並列テキストなしでも外界の画像を参照することで多言語翻訳を学習できます。この人間の学習行動を模倣するために、画像をピボットとして利用し、ゼロリソース翻訳を可能にします。しかし、同一の画像でピボットされた多言語文はノイズが多く、翻訳モデルの学習を妨げます。そこで、画像に基づいた単語レベルの翻訳を学習した後、その翻訳を利用して文レベルの翻訳へと進めるアプローチを採用しました。実験では、IAPR-TC12とMulti30kの二つのデータセットにおいて、提案手法が従来の最先端技術を大幅に上回る性能を示しました。