arXiv cs.AI

トランスフォーマーベースの大規模言語モデル(LLM)を用いたゼロショットデータ引用関数の分類

Zero-shot data citation function classification using transformer-based large language models (LLMs)

http://arxiv.org/abs/2511.02936v1


近年、特定のデータセットとそれを取り入れた科学文献との関連性を特定する試みが増加しています。既に知られている特定のデータセットを引用する文献に対して、そのデータがどのように、またはなぜ使用されたのかを探ることが次の課題です。本研究では、オープンソースの大規模言語モデル「Llama 3.1-405B」を用いて、特定のゲノムデータセットを組み込む文献に対する構造化されたデータ使用ケースラベルを生成しています。また、方法の有効性を評価するための新しい評価フレームワークも導入しました。実験の結果、定義されたカテゴリーなしで、ゼロショットデータ引用分類タスクにおいてF1スコア0.674を達成しましたが、データの可用性や計算インフラ、責任あるパフォーマンス評価の実施に必要なコストなどの課題が残りました。