金融ワークフローにおけるLLM出力の漂流：検証と緩和策

本論文では、大規模言語モデル（LLM）の出力の不確実性（出力漂流）が金融業務における信頼性および監査能力を損なう問題について考察しています。5種類のモデルアーキテクチャ（7B〜120Bパラメータ）の金融タスクにおける出力の一貫性を定量化した結果、小型モデル（Granite-3-8B、Qwen2.5-7B）はT=0.0で100%の一貫性を達成する一方、GPT-OSS-120Bはわずか12.5%の一貫性しか示さないことが明らかになりました。この成果は、大型モデルが常に優れているという従来の仮定に挑戦しています。提案された方法には、金融業務に特化した決定論的テストハーネス、タスクごとの不変チェック、リスクに応じたモデル分類システム、及び二重プロバイダ検証を用いた監査準備済みの保証システムが含まれます。クロスプロバイダ検証によって、ローカルとクラウド環境間での決定論的挙動の移行も確認されました。