この記事では、JanusCoderという新しい視覚プログラミングインターフェースを提案しています。従来のテキストベースのソースコードだけでなく、プログラムが生成する視覚的出力を活用することで、柔軟なコンテンツ生成や精密な視覚化の編集を可能にします。これを実現するために、高品質なマルチモーダルコードデータの不足という課題に立ち向かい、データ合成ツールキットや新たなデータコーパス「JanusCode-800K」を構築しました。このツールキットを用いて、テキスト指示や視覚入力からコードを生成するモデルを訓練し、商業モデルにも匹敵するパフォーマンスを示しました。さらに、プログラム論理と視覚表現の調和に関する重要な洞察も提供しています。