arXiv cs.AI

トークン化に迷う:科学的LLMにおけるバイオ分子理解を解き放つ鍵としての文脈

Lost in Tokenization: Context as the Key to Unlocking Biomolecular Understanding in Scientific LLMs

http://arxiv.org/abs/2510.23127v1


この研究は、科学的大規模言語モデル(Sci-LLMs)が生物学的発見を加速する可能性がある一方で、生物分子のシーケンス処理におけるトークン化のジレンマという基本的な課題に直面していることを指摘しています。著者らは、シーケンスを専門的な言語や別のモダリティとして扱うことで、効果的な情報が失われるリスクや整合性の課題が生じることを批判し、確立されたバイオインフォマティクスツールからの高レベルの構造化された文脈を提供することが有効であると主張しています。実験では、シーケンスのみ、文脈のみ、両者の組み合わせの三つの入力モードで比較が行われ、文脈のみのアプローチが一貫して他のモードを上回る結果が得られました。これにより、生のシーケンスが情報のノイズとして働いていることが示され、Sci-LLMsをシーケンスデコーダーではなく、専門知識に基づく強力な推論エンジンとして再定義することを提案しています。