MetaBench: メタボロミクスにおけるLLM評価のためのマルチタスクベンチマーク

MetaBenchは、メタボロミクス分野における大規模言語モデル（LLM）の能力を評価するための初のマルチタスクベンチマークです。メタボロミクスは、複雑な生化学経路や異なる識別子システム、断片化されたデータベースといった独自の課題を持っています。MetaBenchは、知識、理解、基盤づくり、推論、研究の5つの重要な能力を評価します。25のオープンおよびクローズドソースのLLMを対象とした評価では、テキスト生成タスクでは良好なパフォーマンスを示す一方で、データベース間の識別子の基盤づくりは依然として困難であることが明らかになりました。また、アノテーションが稀なロングテール代謝物に対してはパフォーマンスが低下する傾向があります。MetaBenchは、メタボロミクス研究のための信頼性の高い計算ツール開発への体系的な進展を促進するための重要なインフラを提供します。