BioCoref: LLMを用いたバイオメディカルコアフェレンス解決のベンチマーキング

この記事では、バイオメディカルテキストにおけるコアフェレンス解決の課題を新たに評価するためのBioCorefという手法が紹介されています。著者らは、コアフェレンス解決における生成型大規模言語モデル（LLMs）の性能を検証するため、CRAFTコーパスをベンチマークとして使用しました。実験は、ローカルや文脈の豊かさ、略語やエンティティ辞書といったドメイン特有の手がかりを活用する4つのプロンプトで実施され、生成型と判別型（SpanBERT）モデルの効果が比較されました。その結果、LLMsは特にドメインに基づくプロンプトを用いた際に高い能力を示しましたが、長距離の文脈や曖昧さに対しては敏感であることが判明しました。特に、LLaMA 8Bおよび17Bモデルは、エンティティを強化したプロンプトにおいて優れた精度とF1スコアを示し、バイオメディカルNLPタスクにおけるLLMsの有用性の向上における軽量なプロンプトエンジニアリングの潜在能力を強調しています。