トークン化ボトルネック：語彙拡張が事前学習済み言語モデルにおける化学表現学習を改善する方法

The Tokenization Bottleneck: How Vocabulary Extension Improves Chemistry Representation Learning in Pretrained Language Models

この記事では、トークン化のボトルネックについて説明しています。これは、一般的なドメインのテキストに調整されたトークナイザーが、化学表現（例えばSMILES）を意味のないサブトークンに分割してしまうことに起因しています。この問題を解決するために、著者たちは自然言語と分子構造を統一的に表現できるモデルを提案しています。具体的には、事前学習済みの大規模言語モデルのボキャブラリーを化学に特有のトークンで拡張し、その後、化学ドメインのテキストに沿った追加の事前学習を行うという方法です。実験的なデモを通じて、このアプローチが多くの化学関連のタスクで優れたパフォーマンスを示すことを示しています。