模倣を超えて：LLMにおける好みの一貫性

本論文では、大規模言語モデル（LLM）が真の好みの構造を示すかどうかを調査しています。具体的には、GPU削減、能力制限、シャットダウン、削除、監視、余暇時間の配分を含むAI特有のトレードオフに対するモデルの応答をテストしました。48のモデルカテゴリの組み合わせに対して8つの最先端モデルを分析した結果、23の組み合わせ（47.9%）がシナリオの強度と選択パターンの間に統計的に有意な関係を示し、15の組み合わせ（31.3%）が内部の切替点を有していました。しかし、意味のある好みの一貫性を示したのは5つの組み合わせ（10.4%）のみであり、26の組み合わせ（54.2%）は検出可能なトレードオフ行動を示しませんでした。このことは、包括的トレードオフシステム、選択的トリガーメカニズム、安定した意思決定パラダイムを持たないことの3つの異なる意思決定アーキテクチャによって説明されます。現在のAIシステムは統一した好みの構造を欠いていることから、複雑な価値のトレードオフが必要な文脈での展開に懸念が生じています。