言語モデルにおけるトークンを超えて：テキストジャンルチャンクによる活性化の解釈

Beyond Tokens in Language Models: Interpreting Activations through Text Genre Chunks

本論文では、大規模言語モデル（LLM）の理解が、その安全で有益な運用を確保するために重要であることを強調しています。LLMの構造の解釈の難しさや、全ての出力を人間が評価することができないことがこのタスクを複雑にしています。著者らは、LLMにプロンプトを与えるテキストのジャンルを、その活性化に基づいて予測するための予測フレームワークの第一歩を提案しています。Mistral-7Bを用い、2つのデータセットを使った実験により、ジャンルを抽出することができ、F1スコアは最大98%と71%に達しました。両データセットにおいて、結果は制御タスクを一貫して上回り、浅い学習モデルからテキストジャンルを推測できることを証明する概念実証を提供しています。