RAGalyst: ドメイン特化型RAGの自動人間調整エージェント評価

RAGalystは、特定のドメインにおけるRAG（Retrieval-Augmented Generation）システムの評価を自動化するフレームワークです。このシステムは、文書から高品質な疑問応答データセットを生成するエージェントパイプラインを持ち、データの信頼性を確保するためのフィルタリングステップを組み込んでいます。RAGalystは、回答の正確性と回答可能性を評価するための二つの主要なメトリクスを最適化し、人間の評価と高い相関を持たせることに成功しました。また、軍事作戦、サイバーセキュリティ、橋梁工学の三つの異なるドメインでのRAGコンポーネントの評価を通じて、性能が文脈に依存することを示しています。一般的に最適な埋め込みモデルやハイパーパラメータ設定は存在せず、RAGにおける低い回答正確性の理由についても分析されています。この研究は、RAGシステムを信頼性高く、効果的に構築するための体系的な評価フレームワークの重要性を強調しています。