RAGベースの質問応答におけるLLMの性能比較: コンピュータサイエンス文献のケーススタディ

Comparing the Performance of LLMs in RAG-based Question-Answering: A Case Study in Computer Science Literature

この研究は、Retrieval Augmented Generation (RAG) を利用した疑問応答（QA）における大規模言語モデル（LLM）の性能を比較しています。対象となるのは、Mistral-7b-instruct、LLaMa2-7b-chat、Falcon-7b-instruct、Orca-mini-v3-7b、およびOpenAIのGPT-3.5の5つのモデルです。評価には、精度、バイナリ質問の正確さ、長文回答に対するコサイン類似度などが用いられました。結果として、RAGと組み合わせたGPT-3.5が良好な回答を示し、オープンソースのMistral-7b-instructも優れた性能を発揮しました。一方、Orca-mini-v3-7bは最も短い応答時間を記録し、LLaMa2-7b-chatが最も長い応答時間でした。この研究は、オープンソースのLLMが商業モデルと同等の能力を持つ可能性があることを示唆しています。