ResearchGPT：エンドツーエンドのコンピュータサイエンス研究ワークフローのためのLLMのベンチマーキングとトレーニング

ResearchGPT: Benchmarking and Training LLMs for End-to-End Computer Science Research Workflows

この記事では、ResearchGPTというAIシステムの提案と、そのScientific Q&AのデータセットCS-54kの構築について説明しています。ResearchGPTは、科学研究の各フェーズにおける人間の補助を目指しており、評価にはエンドツーエンドのワークフローに重点を置くことが必要です。著者らは14,000件のCCライセンス論文を参照し、情報の正確性を保証するための多段階の品質管理を取り入れたスケーラブルなパイプラインを用いてCS-54kを構築しました。さらに、CS-4kという研究支援のAI能力を評価するためのベンチマークと、CS-50kという大規模トレーニングデータセットを生成しました。実験結果では、CS-4kが最先端のLLMを異なる能力レベルに分けることが示されています。また、適切に訓練された7Bスケールのモデルが、GPT-4などの商用システムよりも優れていることも示唆されています。この結果は、高品質のドメイン整合データによるトレーニングがAIの研究助手としての能力を高めるために重要であることを示しています。