arXiv cs.AI

テキストの本質的次元を明らかにする:学術的要約から創造的な物語へ

Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story

http://arxiv.org/abs/2511.15210v1


本論文ではテキストの本質的次元(ID)の重要性に焦点を当て、特に大規模言語モデル(LLM)の分析における特性を探求しています。著者らは、IDがエントロピーに基づく指標と補完的であり、科学的な文章は低いIDを示し、創作や意見の文章は高いIDを示すことを発見しました。これは現代のLLMが科学的テキストを「表現的にシンプル」と見なす一方で、フィクションにはより多くの自由度が求められることを意味します。また、スパースオートエンコーダーを使用して、科学的な信号がIDを減少させ、人間的な信号がIDを増加させる因果関係を明らかにしました。この多面的な分析は、IDの適切な使用とその解釈に関する実践的な指針を提供しています。