arXiv cs.AI

アトラスアラインメント: 言語モデル間での解釈可能性の移転を実現する

Atlas-Alignment: Making Interpretability Transferable Across Language Models

http://arxiv.org/abs/2510.27413v1


本記事では、「アトラスアラインメント」というフレームワークを提案し、異なる言語モデル間で解釈可能性を移転する方法について述べています。既存の解釈可能性パイプラインは高コストでスケーラブルでないため、新しいモデルの解釈には多くの時間とリソースが必要です。アトラスアラインメントは、共有入力を用いて、未知の潜在空間を概念アトラス(人間が解釈可能なラベル付き潜在空間)に整合させることにより、これを解決します。整合が完了すると、セマンティック特徴の検索や生成の指導が可能になります。この手法はラベル付けされたデータを必要とせず、コストを抑えつつ説明可能なAIを実現する可能性を示しています。