LLMは忠実に執筆できるか？LLM生成イスラムコンテンツのエージェントベース評価

Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content

本研究では、大規模言語モデル（LLM）がイスラムの指導に用いられる一方で、誤った引用や法解釈の誤り、文化的不適合な応答を引き起こすリスクがあることを評価しています。GPT-4o、Ansari AI、Fanarの生成するテキストを、信頼できるイスラムのブログからのフレーズを用いて評価しました。定量的エージェントを用いた引用検証と構造やイスラム的一貫性を評価し、定性的エージェントによる詳細な比較を行いました。GPT-4oはイスラム的精度で最も高いスコアを得ましたが、全体的には依然として信頼できる accurate content の生成には課題が残ります。この研究は、ムスリムの視点を中心にしたコミュニティ主導のベンチマークの必要性を強調しており、イスラム知識の信頼性向上に向けた初めの一歩となることを目指しています。