ユニバーサルリトリーバル拡張生成のための混合モーダルリトリーバルに向けて

「Retrieval-Augmented Generation（RAG）」は、外部コーパスから関連文書を取得することで大規模言語モデル（LLM）を強化する有力な手法として注目されていますが、既存のRAGシステムは主に単一モードのテキスト文書に焦点を当てており、実際のシナリオでは、クエリと文書がテキストと画像などの混合モーダルを含む場合が多いです。本研究では「Universal Retrieval-Augmented Generation（URAG）」の課題に取り組み、混合モーダル情報を取得し推論する方法を提案します。具体的には、URAGシナリオに特化したNyxという混合モーダルリトリーバーを開発します。また、現実的な混合モーダルデータの不足を補うため、ウェブ文書を活用し、多様な混合モーダルの質問応答ペアからなるNyxQAデータセットを構築する自動化パイプラインを導入します。実験結果は、Nyxが標準的なテキストのみのRAGベンチマークにおいても競争力を持ち、視覚と言語のタスクにおいて生成品質を大幅に向上させることを示しています。