ALDEN: 長文書類におけるアクティブナビゲーションと証拠収集のための強化学習

ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents

本記事では、長文書類を効果的に解析し、情報を統合するための新しいアプローチ「ALDEN」について述べています。現在の視覚言語モデル（VLM）は、長く視覚的に複雑な文書を扱う際に限界があり、固定の推論テンプレートに依存しているため、効率や一般化に欠けています。ALDENは、インタラクティブなエージェントとしてVLMを強化学習で微調整し、長文書類を能動的にナビゲートできるようにします。ALDENは新しい「ファッチアクション」を導入し、ページを直接インデックスで取得することで、従来の検索アクションと文書構造の利用を改善しています。また、トレーニングの不安定性を軽減するための視覚的-意味的アンカー機構も提案されており、これにより、視覚とテキストの表現を安定させながら学習を進めます。ALDENは、収集したデータセットを用い、長文書類の理解において最先端の性能を達成しております。