大規模言語モデルにおける数値属性を通じた多属性交絡の解釈

Interpreting Multi-Attribute Confounding through Numerical Attributes in Large Language Models

この研究では、大規模言語モデル（LLMs）が持つ数値的推論の誤りに関する行動研究の成果を踏まえ、その背後にある表現メカニズムの解明を目指しています。具体的には、LLMsが単一のエンティティに対して複数の数値属性をどのように統合するのか、そして無関係な数値的文脈がこれらの表現やその下流の出力にどのように影響を与えるのかを検討しています。線形プロービングと部分相関分析を組み合わせた実験の結果、LLMsは現実の数値的相関を encoded する一方で、それを系統的に増幅する傾向があることが示されました。また、無関係な文脈は数値表現の大きさに一貫したシフトを引き起こし、その影響はモデルのサイズによって異なることが分かりました。これらの発見は、LLMsの意思決定における脆弱性を明らかにし、将来的な多属性絡みの表現に配慮した公平な制御の基盤を築くものです。