安定だが調整不足: フィルターから大規模言語モデルへの過信に関するカント的視点

Stable but Miscalibrated: A Kantian View on Overconfidence from Filters to Large Language Models

この記事では、カントの『純粋理性批判』をフィードバックの安定性の理論として再解釈し、推論を可能な経験の範囲内に保つための調整装置として考察します。著者は、スペクトルマージン、条件付け、時間的感度、革新の増幅を組み合わせた合成不安定性指標（H-Risk）を公式化しました。リニア・ガウスシミュレーションにおいて、高いH-Riskは正式な安定性のもとでも過信的な誤りを予測します。大規模言語モデル（LLM）への拡張では、内部ダイナミクスの脆弱性が調整不足と幻覚と相関することを示し、批評スタイルのプロンプトが調整と幻覚に対して混合効果を示すことがわかりました。これにより、カントの自己制限とフィードバック制御の間の構造的な橋渡しが示唆され、推論システムの過信を診断し、選択的に減少させるための原則的な視点が提供されます。この結果は初期段階のものであり、今後の研究で追加実験と広範な再現が報告される予定です。