Wasm：構造化アラビア語交差マルチモーダルコーパスを構築するためのパイプライン

Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

本論文は、アラビア語の構造化された交差マルチモーダルコーパスを構築するための新しいパイプライン、Wasmを提案します。大規模な言語モデル（LLM）やマルチモーダルモデル（LMM）の性能は、その前訓練データセットの品質と規模に大きく依存しています。特に、画像とテキストが交差した自然な文書からトレーニングされたモデルは、従来のテキスト・画像ペアのみでトレーニングされたモデルよりも優れた性能を示しています。しかし、アラビア語の高品質なマルチモーダルデータセットの不足が進展を妨げていました。本研究では、Common Crawlデータセットを処理し、文書の構造を維持しつつ、テキスト専用とマルチモーダルの両方に柔軟な事前訓練が可能な新しいアラビア語マルチモーダルデータセットを作成する方法を紹介します。また、データ処理パイプラインの設計選択に関する詳細な比較分析を行い、研究コミュニティに向けて代表的なデータセットを公開する計画を立てています。