arXiv cs.AI

ChEmREF: 化学緊急対応における言語モデルの適性評価

ChEmREF: Evaluating Language Model Readiness for Chemical Emergency Response

http://arxiv.org/abs/2511.10027v1


本記事では、化学物質(HAZMAT)事故に対処する緊急対応者が直面する重要で時を要する意思決定において、今日の言語モデルがどの程度支援できるかを評価しています。新たに提案された化学緊急対応評価フレームワーク(ChEmREF)は、緊急対応ガイドブックとPubChemデータベースからの1,035種類のHAZMAT化学物質に関する質問を含むベンチマークです。このフレームワークは、化学表現の構造化と非構造化の変換、緊急対応策の生成、化学安全及び認証試験に関する専門知識の質問応答の3つのタスクに整理されています。実験の結果、最も評価が高かったモデルは、非構造化HAZMAT化学物質表現の翻訳で68.0%の一致率を示し、緊急事態対応推奨で52.7%の評価スコアを獲得しました。結果は、言語モデルが緊急対応者の支援に一定の可能性を示唆する一方で、その限界から慎重な人間の監視が必要であることを示しています。